Примечание: Полное видео можно посмотреть здесь. Это учебное пособие по CVPR 2022 Учебное пособие Последние достижения в области предварительного обучения зрению и языку Лицзюань Ван, Цзяньфэн Ван, Чжэньюань Ян, Чжэ Ган, Кевин Лин, Линьцзе Ли, Чунг-Чинг Лин, Цзяньвэй Ян. , Пэнчуань Чжан, Чуньюань Ли, Ченфэй Ву.

Зрение и язык

Учебник охватывает различные темы, в том числе:

(1). Предварительное обучение на основе региональных признаков и сквозного изображения и текста

(2). Единое языковое моделирование видения

(3). Расширение Unified Vision-Language Modeling для предварительного обучения видеоязыку

(4). Изучение визуальных моделей с помощью языкового контроля

(5). Визуальный синтез

Во-первых, мы собираемся представить обзоры предварительного обучения изображения и текста.

Приложение

(1). Мультимодальный поиск

Рисунок 1: Поиск изображения в текст и текста в изображение. [2]

В левой части представлен поиск изображения в текст. Учитывая запрос изображения, модель может вывести соответствующий текст из своего текстового корпуса.

Правая часть знакомит с поиском текста в изображение. Учитывая текстовый запрос, модель может вывести соответствующее изображение из своего корпуса изображений.

(2). Подпись к изображению

Рисунок 2: Пример подписи к изображению. [2]

Модель подписи к изображению генерирует соответствующее описание, зависящее от данного изображения.

(3). Изображение Ответ на вопрос

Рисунок 3: Пример ответа на вопрос изображения. [3]

Ответ на вопрос изображения аналогичен подписи к изображению. В частности, задача ответа на вопрос изображения даст вопрос, и ожидается, что модель может ответить на этот вопрос в зависимости от информации об изображении.

Ключевая проблема в предварительном обучении изображения и текста заключается в том, как позволить модели понять скрытую связь между изображением и текстом.

— Использование крупномасштабного набора данных пар (изображение, текст).

Рисунок 4: Пример пар изображение-текст. [2]

Рисунок 5: Пример пары изображение-заголовок (текст). [4]

Предтренировочные задачи

(1). Потеря контраста изображения и текста (ITC)

Рисунок 6: Пример потери контрастности изображения и текста (ITC). [2]

Контрастная цель позволяет модели находить текст на изображении путем совместного обучения кодировщика изображения и текста, чтобы максимизировать косинусное сходство парного встраивания изображения и текста.

Таким образом, контрастная потеря изображения и текста направлена ​​​​на поиск наилучшего соответствия встраивания изображения из пакета вложений изображений с учетом встраивания текста. Точно так же поиск наилучшего соответствия встраивания текста из пакета вложений текста с учетом встраивания изображения. [5]

(2). Потеря сопоставления изображения и текста (ITM)

Рисунок 7: Пример потери сопоставления изображения и текста (ITM). [2]

Сопоставление изображения и текста (ITM) относится к заданной паре входных данных, мы должны отличить совпадающую пару от несопоставленной пары.

(3). Потеря моделирования языка в маске (MLM)

Рисунок 8: Пример потери при моделировании маскированного языка (MLM). [2]

В моделировании маскированного языка цель направлена ​​на предсказание содержимого лексем маскированного текста. Затем задача моделирования маскированного языка направлена ​​​​на восстановление замаскированных словесных токенов на основе их информации о левом и правом контекстах немаскированных словесных токенов. [5]

(4). Языковое моделирование (LM)

Рисунок 9: Пример потери языкового моделирования (LM). [2]

Моделирование языка направлено на предсказание следующего токена с учетом предыдущих токенов. Очевидным недостатком является то, что у нас есть только левая контекстная информация.

И языковое моделирование в маске, и языковое моделирование имеют свои преимущества и недостатки. В приведенном ниже исследовании показано, как извлечь выгоду из обоих преимуществ.

Недавнее обучение

В «CM3: казуальная маскированная мультимодальная модель Интернета» [6] они предложили гибрид казуальной и маскированной языковой модели.

Рисунок 10: Гибрид случайной и маскированной языковой модели. [6]

В гибриде случайной и маскированной языковой модели они будут маскировать диапазон слов и перемещать этот диапазон в конец предложения. Исходное расположение замаскированного диапазона слов будет заменено токеном ‹mask›. Затем модель работает как модель случайного языка, генерируя токены слева направо, а также маскируя небольшое количество интервалов токенов, которые позже будут генерироваться в конце строки, а не в их исходных позициях. [6]

Поскольку они переместили замаскированные токены в конец предложения, модель увидела замаскированные токены после просмотра левого и правого контекста исходного местоположения замаскированных токенов, модель изучает двунаправленную контекстную информацию. [6]

Они обучают модели на крупномасштабных веб-статьях и статьях в Википедии, где каждый документ содержит весь текст, гипертекстовую разметку, гиперссылки и токены изображений (из VQVAE-GAN) в том порядке, в котором они появляются в исходном HTML-источнике (до маскировка). [6]

Рисунок 11: Данные обучения CM3 [6]

Затем мы собираемся представить различные одномодальные и кросс-модальные задачи, которые выполнил CM3.

(1). Модальность изображения — безусловная генерация изображения

Рисунок 12: Пример создания безусловного изображения [6]

Использование безусловной подсказки генерации изображения «‹img» для создания изображения с соответствующим текстом (заголовком). Если вы хотите только сгенерировать изображение, используйте приглашение «img src=».

(2). Модальность изображения — создание условного изображения

Рисунок 13: Пример создания условного изображения [6]

Использование условной подсказки генерации, как показано ниже

Рисунок 14: приглашение условного создания изображения [6]

Изображения, сгенерированные CM3, будут выбраны CLIP [8] и выведены лучшие результаты k, чтобы обеспечить изображения высокого качества. Однако на приведенных выше изображениях есть некоторые ошибки.

Во втором ряду на втором изображении нет красной машины.

В третьем ряду модель может генерировать форму овцы, но не может явно отображать морду овцы.

Кроме того, поскольку CM3 обучался на крупномасштабных веб-сайтах (в основном новостных статьях) и статьях в Википедии, CM3 не подходит для создания вымышленных изображений, таких как «химера дракона-жирафа».

С другой стороны, DALL-E [7], который является экспертом в создании таких вымышленных, творческих, оригинальных изображений. Учитывая текстовую подсказку «профессиональная высококачественная иллюстрация химеры дракона-жирафа. жираф, имитирующий дракона. жираф, сделанный из дракона.», DALL-E может вывести изображения, показанные ниже. [9]

Рисунок 15: Химера дракона-жирафа, созданная DALL-E [9]

(3). Модальность «текст-изображение» — субтитры

Использование подсказки для подписи текста к изображению, как показано ниже.

Рис. 16: Подсказка «Текст-изображение». [6]

Рис. 17: Результат подписи «Текст-изображение». [6]

CM3-Caption-Beam означает, что изображения, сгенерированные CM3, будут выбираться посредством поиска луча.

CM3-Caption-CLIP означает, что изображения, сгенерированные CM3, будут выбраны CLIP.

Поскольку мы не можем напрямую честно сравнить результат CM3-Caption-Beam и CM3-Caption-CLIP, вместо этого мы можем использовать BERTscore [10] для оценки результатов.

Рисунок 18: Сравнение BERTscore. [10]

BERTscore стремится оценить семантическое сходство между заголовками и правдой. Мы видим, что CM3-Caption-CLIP превосходит CM3-Caption-CLIP.

Заключение

Предобучение изображения-текста и соответствующие задачи являются очень популярной темой исследований в настоящее время. Как найти правильный подход для использования кросс-модальных взаимодействий между отдельными элементами, между изображением и текстом, является основной проблемой.

В результате, как мы показали выше, CLIP, DALL-E, CM3 и т. д. демонстрируют всесторонние возможности для решения мультимодальных задач. В частности, модели CM3 могут генерировать разнообразные и богато структурированные мультимодальные выходные данные. Во время обучения он может неявно учиться на широком спектре текстовых, графических и кросс-модальных задач. В последующих задачах CM3 может быть предложено выполнить безусловную/условную генерацию изображений (например, DALL-E) и выполнить задачи подписи к изображениям. [6]

Ссылка

[1] CVPR 2022 Учебное пособие Последние достижения в области предварительного обучения зрению и языку.

[2] CVPR 2022 Учебное пособие Последние достижения в области предварительного обучения зрению и языку | Обзор предварительных обучающих слайдов изображения и текста.

[3] Создание значения V в VQA: повышение роли понимания изображения в визуальных ответах на вопросы, 2016 г.

[4] Концептуальные подписи: очищенный, гиперименованный набор данных с замещающим текстом изображения для автоматического добавления подписей к изображениям, 2018 г.

[5] Предварительное обучение языку зрения для улучшения детекторов текста сцены, 2022 г.

[6] CM3: Повседневная замаскированная мультимодальная модель Интернета, 2022 г.

[7] Генерация текста в изображение Zero Shot, 2021.

[8] Изучение переносимых визуальных моделей с помощью наблюдения за естественным языком, 2021.

[9] Знакомство с DALL-E.

[10] BERTscore: BERTSCORE: ОЦЕНКА ГЕНЕРАЦИИ ТЕКСТА С BERT, 2019.