Операции в моделях языка зрения, часть 1 (машинное обучение)

Устранение предвзятости моделей языка видения с помощью предвзятых подсказок (arXiv)

Автор: Чинг-Яо Чуанг, Варун Джампани, Юаньчжэнь Ли, Антонио Торральба, Стефани Джегелька.

Аннотация. Было показано, что модели машинного обучения наследуют смещения от своих обучающих наборов данных, что может быть особенно проблематичным для базовых моделей языка видения, обученных на некурируемых наборах данных, взятых из Интернета. Смещения могут усиливаться и распространяться на последующие приложения, такие как нулевые классификаторы и генеративные модели преобразования текста в изображение. В этом исследовании мы предлагаем общий подход к устранению предвзятости базовых моделей языка видения путем проецирования предвзятых направлений во встраивание текста. В частности, мы показываем, что устранения смещения только встраивания текста с калиброванной матрицей проекций достаточно для получения надежных классификаторов и честных генеративных моделей. Решение в закрытой форме позволяет легко интегрироваться в крупномасштабные пайплайны, а эмпирические результаты демонстрируют, что наш подход эффективно уменьшает социальную предвзятость и ложную корреляцию как в дискриминационных, так и в генеративных моделях языка видения без необходимости дополнительных данных или обучения.

2. Преобразование языковых моделей видения в масштабе Интернета в воплощенных агентов (arXiv)

Автор: Теодор Сумерс, Кеннет Марино, Арун Ахуджа, Роб Фергус, Ишита Дасгупта.

Аннотация: Агенты, следующие инструкциям, должны использовать язык в своих пространствах наблюдения и действия. Обучение основам языка является сложной задачей, обычно требующей предметно-ориентированной инженерии или большого количества данных о взаимодействии с человеком. Чтобы решить эту проблему, мы предлагаем использовать предварительно обученные модели языка видения (VLM) для наблюдения за воплощенными агентами. Мы объединяем идеи дистилляции модели и воспроизведения опыта задним числом (HER), используя VLM для задним числом генерировать язык, описывающий поведение агента. Простые подсказки позволяют нам управлять сигналом наблюдения, обучая агента взаимодействовать с новыми объектами на основе их имен (например, плоскостей) или их характеристик (например, цветов) в трехмерной визуализируемой среде. Подсказка Fewshot позволяет нам обучать членству в абстрактных категориях, включая уже существующие категории (еда или игрушки) и специальные категории (произвольные предпочтения по сравнению с объектами). Наша работа описывает новый и эффективный способ использования VLM в масштабе Интернета, перепрофилируя общую языковую базу, полученную такими моделями, для обучения воплощённых агентов основам, относящимся к задаче.

Операции в моделях языка зрения, часть 1 (машинное обучение)

Вопросы по теме