Примечание: Полное видео можно посмотреть здесь. Это учебное пособие по CVPR 2022 Учебное пособие Последние достижения в области предварительного обучения зрению и языку Лицзюань Ван, Цзяньфэн Ван, Чжэньюань Ян, Чжэ Ган, Кевин Лин, Линьцзе Ли, Чунг-Чинг Лин, Цзяньвэй Ян. , Пэнчуань Чжан, Чуньюань Ли, Ченфэй Ву.
Зрение и язык
Учебник охватывает различные темы, в том числе:
(1). Предварительное обучение на основе региональных признаков и сквозного изображения и текста
(2). Единое языковое моделирование видения
(3). Расширение Unified Vision-Language Modeling для предварительного обучения видеоязыку
(4). Изучение визуальных моделей с помощью языкового контроля
(5). Визуальный синтез
Во-первых, мы собираемся представить обзоры предварительного обучения изображения и текста.
Приложение
(1). Мультимодальный поиск
Рисунок 1: Поиск изображения в текст и текста в изображение. [2]
В левой части представлен поиск изображения в текст. Учитывая запрос изображения, модель может вывести соответствующий текст из своего текстового корпуса.
Правая часть знакомит с поиском текста в изображение. Учитывая текстовый запрос, модель может вывести соответствующее изображение из своего корпуса изображений.
(2). Подпись к изображению
Рисунок 2: Пример подписи к изображению. [2]
Модель подписи к изображению генерирует соответствующее описание, зависящее от данного изображения.
(3). Изображение Ответ на вопрос
Рисунок 3: Пример ответа на вопрос изображения. [3]
Ответ на вопрос изображения аналогичен подписи к изображению. В частности, задача ответа на вопрос изображения даст вопрос, и ожидается, что модель может ответить на этот вопрос в зависимости от информации об изображении.
Ключевая проблема в предварительном обучении изображения и текста заключается в том, как позволить модели понять скрытую связь между изображением и текстом.
— Использование крупномасштабного набора данных пар (изображение, текст).
Рисунок 4: Пример пар изображение-текст. [2]
Рисунок 5: Пример пары изображение-заголовок (текст). [4]
Предтренировочные задачи
(1). Потеря контраста изображения и текста (ITC)
Рисунок 6: Пример потери контрастности изображения и текста (ITC). [2]
Контрастная цель позволяет модели находить текст на изображении путем совместного обучения кодировщика изображения и текста, чтобы максимизировать косинусное сходство парного встраивания изображения и текста.
Таким образом, контрастная потеря изображения и текста направлена на поиск наилучшего соответствия встраивания изображения из пакета вложений изображений с учетом встраивания текста. Точно так же поиск наилучшего соответствия встраивания текста из пакета вложений текста с учетом встраивания изображения. [5]
(2). Потеря сопоставления изображения и текста (ITM)
Рисунок 7: Пример потери сопоставления изображения и текста (ITM). [2]
Сопоставление изображения и текста (ITM) относится к заданной паре входных данных, мы должны отличить совпадающую пару от несопоставленной пары.
(3). Потеря моделирования языка в маске (MLM)
Рисунок 8: Пример потери при моделировании маскированного языка (MLM). [2]
В моделировании маскированного языка цель направлена на предсказание содержимого лексем маскированного текста. Затем задача моделирования маскированного языка направлена на восстановление замаскированных словесных токенов на основе их информации о левом и правом контекстах немаскированных словесных токенов. [5]
(4). Языковое моделирование (LM)
Рисунок 9: Пример потери языкового моделирования (LM). [2]
Моделирование языка направлено на предсказание следующего токена с учетом предыдущих токенов. Очевидным недостатком является то, что у нас есть только левая контекстная информация.
И языковое моделирование в маске, и языковое моделирование имеют свои преимущества и недостатки. В приведенном ниже исследовании показано, как извлечь выгоду из обоих преимуществ.
Недавнее обучение
В «CM3: казуальная маскированная мультимодальная модель Интернета» [6] они предложили гибрид казуальной и маскированной языковой модели.
Рисунок 10: Гибрид случайной и маскированной языковой модели. [6]
В гибриде случайной и маскированной языковой модели они будут маскировать диапазон слов и перемещать этот диапазон в конец предложения. Исходное расположение замаскированного диапазона слов будет заменено токеном ‹mask›. Затем модель работает как модель случайного языка, генерируя токены слева направо, а также маскируя небольшое количество интервалов токенов, которые позже будут генерироваться в конце строки, а не в их исходных позициях. [6]
Поскольку они переместили замаскированные токены в конец предложения, модель увидела замаскированные токены после просмотра левого и правого контекста исходного местоположения замаскированных токенов, модель изучает двунаправленную контекстную информацию. [6]
Они обучают модели на крупномасштабных веб-статьях и статьях в Википедии, где каждый документ содержит весь текст, гипертекстовую разметку, гиперссылки и токены изображений (из VQVAE-GAN) в том порядке, в котором они появляются в исходном HTML-источнике (до маскировка). [6]
Рисунок 11: Данные обучения CM3 [6]
Затем мы собираемся представить различные одномодальные и кросс-модальные задачи, которые выполнил CM3.
(1). Модальность изображения — безусловная генерация изображения
Рисунок 12: Пример создания безусловного изображения [6]
Использование безусловной подсказки генерации изображения «‹img» для создания изображения с соответствующим текстом (заголовком). Если вы хотите только сгенерировать изображение, используйте приглашение «img src=».
(2). Модальность изображения — создание условного изображения
Рисунок 13: Пример создания условного изображения [6]
Использование условной подсказки генерации, как показано ниже
Рисунок 14: приглашение условного создания изображения [6]
Изображения, сгенерированные CM3, будут выбраны CLIP [8] и выведены лучшие результаты k, чтобы обеспечить изображения высокого качества. Однако на приведенных выше изображениях есть некоторые ошибки.
Во втором ряду на втором изображении нет красной машины.
В третьем ряду модель может генерировать форму овцы, но не может явно отображать морду овцы.
Кроме того, поскольку CM3 обучался на крупномасштабных веб-сайтах (в основном новостных статьях) и статьях в Википедии, CM3 не подходит для создания вымышленных изображений, таких как «химера дракона-жирафа».
С другой стороны, DALL-E [7], который является экспертом в создании таких вымышленных, творческих, оригинальных изображений. Учитывая текстовую подсказку «профессиональная высококачественная иллюстрация химеры дракона-жирафа. жираф, имитирующий дракона. жираф, сделанный из дракона.», DALL-E может вывести изображения, показанные ниже. [9]
Рисунок 15: Химера дракона-жирафа, созданная DALL-E [9]
(3). Модальность «текст-изображение» — субтитры
Использование подсказки для подписи текста к изображению, как показано ниже.
Рис. 16: Подсказка «Текст-изображение». [6]
Рис. 17: Результат подписи «Текст-изображение». [6]
CM3-Caption-Beam означает, что изображения, сгенерированные CM3, будут выбираться посредством поиска луча.
CM3-Caption-CLIP означает, что изображения, сгенерированные CM3, будут выбраны CLIP.
Поскольку мы не можем напрямую честно сравнить результат CM3-Caption-Beam и CM3-Caption-CLIP, вместо этого мы можем использовать BERTscore [10] для оценки результатов.
Рисунок 18: Сравнение BERTscore. [10]
BERTscore стремится оценить семантическое сходство между заголовками и правдой. Мы видим, что CM3-Caption-CLIP превосходит CM3-Caption-CLIP.
Заключение
Предобучение изображения-текста и соответствующие задачи являются очень популярной темой исследований в настоящее время. Как найти правильный подход для использования кросс-модальных взаимодействий между отдельными элементами, между изображением и текстом, является основной проблемой.
В результате, как мы показали выше, CLIP, DALL-E, CM3 и т. д. демонстрируют всесторонние возможности для решения мультимодальных задач. В частности, модели CM3 могут генерировать разнообразные и богато структурированные мультимодальные выходные данные. Во время обучения он может неявно учиться на широком спектре текстовых, графических и кросс-модальных задач. В последующих задачах CM3 может быть предложено выполнить безусловную/условную генерацию изображений (например, DALL-E) и выполнить задачи подписи к изображениям. [6]
Ссылка
[1] CVPR 2022 Учебное пособие Последние достижения в области предварительного обучения зрению и языку.
[2] CVPR 2022 Учебное пособие Последние достижения в области предварительного обучения зрению и языку | Обзор предварительных обучающих слайдов изображения и текста.
[3] Создание значения V в VQA: повышение роли понимания изображения в визуальных ответах на вопросы, 2016 г.
[4] Концептуальные подписи: очищенный, гиперименованный набор данных с замещающим текстом изображения для автоматического добавления подписей к изображениям, 2018 г.
[5] Предварительное обучение языку зрения для улучшения детекторов текста сцены, 2022 г.
[6] CM3: Повседневная замаскированная мультимодальная модель Интернета, 2022 г.
[7] Генерация текста в изображение Zero Shot, 2021.
[8] Изучение переносимых визуальных моделей с помощью наблюдения за естественным языком, 2021.
[9] Знакомство с DALL-E.
[10] BERTscore: BERTSCORE: ОЦЕНКА ГЕНЕРАЦИИ ТЕКСТА С BERT, 2019.