Примечание: Полное видео можно посмотреть здесь. Это учебник по ICASSP 2022 Учебник Архитектуры трансформаторов для мультимодальной обработки сигналов и принятия решений двух инструкторов: Chen Sun и Boqing Gong.

- Введение

Учебное пособие направлено на то, чтобы предоставить аудитории знания о нейронных архитектурах преобразователя и связанных с ними алгоритмах обучения.

Архитектуры Transformer стали предпочтительными моделями обработки естественного языка (NLP). В компьютерном зрении в последнее время наблюдается рост интереса к сквозным трансформерам. Это привело к усилиям по замене ручного проектирования функций и предубеждений нейронными архитектурами общего назначения, обученными на данных. Архитектуры-трансформеры также достигли самых современных результатов в различных областях, таких как мультимодальное обучение, предсказание структуры белка и принятие решений.

Эти результаты демонстрируют значительный потенциал архитектур Transformer за пределами упомянутых областей, особенно в сообществе обработки сигналов (SP).

Затем мы собираемся представить различные мультимодальные модели, связанные с обработкой сигналов с кросс-модальностью.

— Категория (1) Аудио-видео

В недавнем исследовании «Подсказка о скрытом таланте моделей речи веб-масштаба для обобщения задач Zero-Shot» [1] компании Whisper было предложено выполнить аудиовизуальное распознавание речи (AVSR), распознавание речи с коммутацией кода (CS-ASR). ) и задачи перевода речи (ST) с использованием невидимых языковых пар.

В этой работе они используют известную модель зрения и языка CLIP [2] в качестве своего кодировщика изображений вместе с внешним словарем общих объектных слов.

Эта задача представляет собой более широкую вариацию аудиовизуального распознавания речи (AVSR), которая включает в себя распознавание речевого звука при одновременном рассмотрении сопровождающего видео движения лица или губ говорящего.

Чтобы предоставить Whisper визуальную подсказку, они используют известную и популярную модель CLIP, основанную на видении и языке, и внешний словарь общих объектных слов. Это позволяет им преобразовывать визуальный поток в последовательность токенов слов. Создавая предложения с использованием шаблона «Это фотография { }» для каждого слова/фразы во внешнем словаре, они предварительно вычисляют векторы встраивания с помощью текстового кодировщика CLIP в автономном режиме.

Во время логического вывода они выбирают три кадра изображения RGB с равными интервалами из каждого видео и используют кодировщик изображений CLIP для их встраивания. Они вычисляют сходство между вложениями изображений и предварительно вычисленными вложениями текста. Основываясь на наивысших оценках сходства, они выбирают K лучших объектов, вложения которых соответствуют подсказке изображения. Эти выбранные имена объектов объединяются в список слов, разделенных запятыми, который вставляется в предыдущий текстовый слот подсказки.

Кроме того, они обнаружили интересные свойства Whisper — в AVSR модель очень устойчива к длине и зашумленности визуальной подсказки, а эффективность визуальной подсказки между англоязычными моделями и многоязычными моделями сильно различается.

— Категория (2) Визуальный язык

В «BLIP: предварительная подготовка языковых изображений для унифицированного видения и понимания языка» [3] они представляют два вклада, которые вытекают как из модели, так и из точки зрения данных.

Во-первых, вводится новая архитектура модели под названием MED (мультимодальная смесь кодировщика-декодера) как средство достижения эффективного многозадачного предварительного обучения и адаптивного обучения переносу. MED предлагает гибкость для работы в качестве одномодального кодировщика, кодировщика текста на основе изображений или декодера текста на основе изображений. Он включает в себя три цели языка видения: обучение контрастированию изображения и текста (ITC), сопоставление изображения и текста (ITM) и моделирование языка с учетом изображений (LM).

(Примечание: ITC, ITM и LM были кратко представлены в [ССЫЛКА])

Во-вторых, они предлагают новый метод повышения набора данных для обучения на зашумленных парах изображение-текст. Подход включает точную настройку предварительно обученной модели MED на два отдельных модуля. Первый модуль, называемый captioner, генерирует синтетические подписи на основе веб-изображений. Второй модуль, известный как фильтр, отвечает за удаление зашумленных подписей как из оригинального веб-текста, так и из синтетических текстов.

Результаты показывают, что при использовании самозагружаемых субтитров автор субтитров и фильтр взаимодействуют друг с другом для значительного повышения производительности в различных последующих задачах.

В другой работе «ClipCap: CLIP Prefix for Image Captioning» [4] они пытаются дать модели GPT-2 возможность понимать изображения, подобно тому, как запрашивать модель Whisper, чтобы она понимала изображения и предоставляла подписи к изображениям. . В частности, они используют CLIP в качестве кодировщика изображений для извлечения функций изображения, которые могут представлять собой унифицированное представление как для изображений, так и для текстовых подсказок. Затем извлеченные признаки изображения передаются в обучаемую картографическую сеть для создания вложений префиксов. Эти вложения префиксов, наконец, добавляются к входным данным и передаются в языковую модель.

— Категория (3) Аудио-язык

В статье «Языковые модели нейронных кодеков — это синтезаторы речи с нулевым уровнем преобразования текста» [5] они используют дискретизацию речи для преодоления разрыва между модальностями речи и текста. Они обучают модель языка нейронного кодека, называемую VALL-E, используя дискретные коды, полученные из модели нейронного аудиокодека. Кроме того, они рассматривают преобразование текста в речь (TTS) как задачу моделирования условного языка, отходя от предыдущих подходов, которые использовали непрерывную регрессию сигнала.

В «SpeechGPT: Расширение возможностей больших языковых моделей с внутренними кросс-модальными разговорными способностями» [6] они представляют большую языковую модель с внутренними кросс-модальными разговорными возможностями, способную воспринимать и генерировать мультимодальный контент. Используя обученную модель речи с самоконтролем, они выполняют дискретизацию речи, чтобы преодолеть разрыв в модальности между речью и текстом. Дискретные речевые токены впоследствии расширяются в словарь языковой модели, тем самым наделяя модель присущей способностью воспринимать и генерировать речь.

Эта работа показывает разработку мультимодальной большой языковой модели, способной воспринимать и генерировать мультимодальный контент. SpeechGPT, первый LLM с устным диалогом, демонстрирующий свое мастерство в понимании человеческих инструкций и участии в устном диалоге. Кроме того, они демонстрируют возможность интеграции дополнительных модальностей в LLM с использованием дискретных представлений.

- Использованная литература

[1] Пэн, П., Ян, Б., Ватанабе, С., и Харват, Д. (2023). Пробуждение скрытого таланта моделей речи веб-масштаба для обобщения задач Zero-Shot. препринт arXiv arXiv:2305.11095.

[2] Рэдфорд, А., Ким, Дж. В., Халласи, К., Рамеш, А., Го, Г., Агарвал, С., … и Суцкевер, И. (2021, июль). Изучение переносимых визуальных моделей из наблюдения за естественным языком. В Международной конференции по машинному обучению (стр. 8748–8763). ПМЛР.

[3] Ли, Дж., Ли, Д., Сюн, К., и Хой, С. (2022, июнь). Blip: начальная предварительная подготовка языковых образов для единого понимания и генерации языковых образов. В Международной конференции по машинному обучению (стр. 12888–12900). ПМЛР.[4] ClipCap: префикс CLIP для подписи к изображению, 2021 г.

[5] Ван, К., Чен, С., Ву, Ю., Чжан, З., Чжоу, Л., Лю, С., … и Вэй, Ф. (2023). Языковые модели нейронных кодеков представляют собой синтезаторы речи с нулевым преобразованием текста. препринт arXiv: 2301.02111.

[6] Чжан, Д., Ли, С., Чжан, X., Чжан, Дж., Ван, П., Чжоу, Ю., и Цю, X. (2023). Speechgpt: Расширение возможностей больших языковых моделей с внутренними межмодальными разговорными способностями. препринт arXiv arXiv:2305.11000.

[7] Сан К., Майерс А., Вондрик К., Мерфи К. и Шмид К. (2019). Videobert: совместная модель для изучения видео и языкового представления. В Материалы международной конференции IEEE/CVF по компьютерному зрению (стр. 7464–7473).

[8] Акбари, Х., Юань, Л., Цянь, Р., Чуанг, У. Х., Чанг, С. Ф., Цуй, Ю., и Гонг, Б. (2021). Vatt: Преобразователи для мультимодального самоконтролируемого обучения на основе необработанного видео, аудио и текста. Advanced in Neural Information Processing Systems, 34, 24206–24221.

[9] Ван, З., Ю, Дж., Ю, А.В., Дай, З., Цветков, Ю., и Цао, Ю. (2021). Simvlm: предварительное обучение простой модели визуального языка со слабым контролем. препринт arXiv arXiv:2108.10904.

[10] Ю, Дж., Ван, З., Васудеван, В., Юнг, Л., Сейедхоссейни, М., и Ву, Ю. (2022). Кока: Контрастные субтитры — это модели, основанные на изображении и тексте. препринт arXiv arXiv:2205.01917.