Внедрение более интеллектуального адаптивного ИИ с инновационными мультимодальными системами

Написано в сотрудничестве с Васудев Лал и командой Cognitive AI в Intel Labs.

Важный рубеж в области когнитивного ИИ – это создание систем, которые могут интегрировать несколько модальностей и синтезировать значения языка, изображений, видео, аудио и источников структурированных знаний, таких как графы отношений. Адаптивные приложения, такие как разговорный ИИ; поиск видео и изображений по языку; автономные роботы и дроны; а для мультимодальных помощников ИИ потребуются системы, которые могут взаимодействовать с миром, используя все доступные модальности, и реагировать соответствующим образом в определенных контекстах. В этом блоге мы представим концепцию мультимодального обучения, а также некоторые из его основных вариантов использования, а также обсудим прогресс, достигнутый Intel Labs в создании надежных мультимодальных систем рассуждений.

За последние несколько лет решения для глубокого обучения (ГО) показали лучшие результаты, чем базовый уровень человека, во многих тестах обработки естественного языка (НЛП) (например, SuperGLUE, GLUE, SQuAD) и тестах компьютерного зрения (например, Имиджнет). Прогресс в отдельных модальностях является свидетельством возможностей, подобных восприятию или распознаванию, достигнутых благодаря высокоэффективным статистическим сопоставлениям, изученным нейронными сетями.

Всего десять лет назад эти одномодальные задачи считались чрезвычайно сложными для решения, но в настоящее время они являются основной рабочей нагрузкой ИИ в центрах обработки данных, клиентских и периферийных продуктах. Однако в мультимодальных условиях многие идеи, которые можно было бы получить с помощью автоматизированных методов, по-прежнему остаются неиспользованными.

Мультимодальность для ориентированного на человека когнитивного ИИ

Когнитивные способности человека часто связаны с успешным обучением с использованием нескольких модальностей. Например, концепция яблока должна включать в себя информацию, полученную с помощью зрения: как оно обычно выглядит с точки зрения цвета, формы, текстуры и т. д. Но концепция яблока, сформированная людьми и передовыми системами искусственного интеллекта, также должна быть информирована о том, что звук, который издает яблоко, когда его надкусывают, что люди имеют в виду, когда говорят о яблочном пироге, и всесторонние знания о яблоках, доступные в текстовых корпусах, таких как Википедия, или в структурированных базах знаний, таких как Викиданные.

Мультимодальная система ИИ может получать знания из нескольких источников и модальностей и использовать их для решения задач, связанных с любой модальностью. Информация, полученная с помощью изображений и базы знаний, должна использоваться при ответе на вопрос на естественном языке; точно так же информация, полученная из текста, должна использоваться при необходимости в визуальных задачах. Все это связано через понятия, которые пересекают все модальности или, как говорится: собака есть собака есть собака.

Здравый смысл по своей сути мультимодален

Люди обладают большим количеством знаний о мире, основанных на здравом смысле, например, осознание того, что птицы летают в небе, а машины едут по дороге. Такое здравый смысл обычно приобретается с помощью комбинации визуальных, лингвистических и сенсорных сигналов, а не только языка. Здравый смысл был назван «темной материей ИИ», — сказал Орен Эциони, генеральный директор Института искусственного интеллекта Аллена. Это потому, что здравый смысл состоит из неявной информации — широкого (и широко распространенного) набора неписаных предположений и эмпирических правил, которые люди автоматически используют, чтобы понять мир.

Интересно, что мультимодальные системы могут дать возможность решить проблему отсутствия здравого смысла в системах ИИ. Одним из способов улучшить здравый смысл языковых моделей на основе преобразователей, таких как BERT/GPT-3, было бы включение обучающих сигналов, охватывающих другие модальности, в архитектуру модели. Первым шагом в достижении этой возможности является согласование внутреннего представления с различными модальностями.

Когда ИИ получает изображение и связанный с ним текст и обрабатывает оба, ему необходимо связать один и тот же объект или концепцию между модальностями. Например, рассмотрим сценарий, в котором ИИ видит изображение автомобиля с текстом, в котором упоминаются колеса автомобиля. ИИ должен обращать внимание на часть изображения с колесами автомобиля, когда он обращает внимание на часть текста, которая относится к ним. ИИ должен «знать», что изображение колес автомобиля и текст, упоминающий колеса, относятся к одному и тому же объекту в разных модальностях.

Текущие задачи и архитектуры мультимодального ИИ

По состоянию на начало 2022 года мультимодальные системы ИИ экспериментируют с переводом текста/НЛП и зрения в согласованное пространство для внедрения, чтобы облегчить мультимодальное принятие решений. Существует ряд задач, требующих, чтобы модель обладала хотя бы некоторой мультимодальной пропускной способностью. Ниже приводится краткий обзор четырех распространенных рабочих нагрузок и соответствующих моделей SotA.

  • Создание описания изображения, преобразование текста в изображение

Пожалуй, самыми известными моделями, которые решают задачи описания изображений и преобразования текста в изображение, являются OpenAI CLIP и DALL-E, а также их преемник GLIDE.

CLIP предварительно обучает отдельные кодировщики изображений и текста и учится предсказывать, какие изображения в наборе данных связаны с различными описаниями. Интересно, что, как и в случае с нейроном Холли Берри у людей, CLIP, как было показано, имеет мультимодальные нейроны, которые активируются при воздействии как текста метки классификатора, так и соответствующего изображения, что указывает на слитое мультимодальное представление. DALL-E - это вариант GPT-3 с 13 миллиардами параметров, который принимает текст в качестве входных данных и генерирует серию выходных изображений, соответствующих тексту; сгенерированные изображения затем ранжируются с помощью CLIP. GLIDE — это эволюция DALL-E, которая по-прежнему использует CLIP для ранжирования сгенерированных изображений; однако генерация изображения выполняется с использованием диффузионной модели.

  • Визуальный ответ на вопрос

Визуальный ответ на вопрос, представленный в таких наборах данных, как VQA, — это задача, требующая от модели правильного ответа на текстовый вопрос на основе изображения. Команды Microsoft Research разработали несколько передовых подходов к решению этой задачи. METER — это общая структура для обучения производительных сквозных преобразователей языка изображений с использованием множества возможных подархитектур для модулей кодировщика изображений, текстового кодировщика, мультимодального слияния и декодера. Предварительно обученная модель Unified Vision-Language (VLMo) использует модульную сеть преобразователей для совместного обучения двойного кодировщика и кодировщика слияния. Каждый блок в сети содержит пул экспертов по модальностям и общий уровень самоконтроля, что обеспечивает значительную гибкость для точной настройки.

  • Поиск текста в изображение и изображения в текст

Веб-поиск — еще одно важное применение мультимодального обучения. Примером набора данных, представляющего эту задачу, является WebQA, который представляет собой мультимодальный тест с несколькими переходами, имитирующий веб-поиск. WebQA был разработан командами Microsoft и Университета Карнеги-Меллона.

В этой задаче модель должна определить источники (изображения или текст), которые могут помочь ответить на запрос. Для большинства вопросов модель должна учитывать более одного источника, чтобы получить правильный ответ. Затем системе необходимо обосновать, используя эти несколько источников, чтобы сгенерировать ответ на запрос на естественном языке.

Google решил задачу мультимодального поиска с помощью модели крупномасштабного встраивания изображений и зашумленного текста (ALIGN). Эта модель использует легкодоступные, но зашумленные данные альтернативного текста, связанные с изображениями в Интернете, для обучения отдельных визуальных (EfficientNet-L2) и текстовых (BERT-Large) кодировщиков, выходные данные которых затем объединяются с использованием контрастное обучение. Полученная модель хранит мультимодальные представления, которые обеспечивают кросс-модальный поиск без какой-либо дополнительной тонкой настройки.

  • Моделирование языка видео

Исторически сложилось так, что задачи на основе видео были сложными для систем ИИ, потому что они требовательны к ресурсам; но это начинает меняться. Одно из основных направлений работы в области моделирования видеоязыка и других мультимодальных задач, связанных с видео, осуществляется в рамках проекта Microsoft Project Florence-VL. В середине 2021 года Project Florence-VL представил ClipBERT, который включает в себя комбинацию CNN и модели преобразователя, которая работает поверх кадров с разреженной выборкой и оптимизирована сквозным образом для решения популярных видеоязыков. задания. VIOLET и SwinBERT — это эволюция ClipBERT, в которых представлено моделирование маскированных визуальных токенов и разреженное внимание для улучшения SotA в ответах на видео-вопросы, поиске видео и субтитров к видео.

Разница заключается в деталях, но все вышеперечисленные модели имеют одну и ту же характеристику использования архитектуры на основе трансформатора. Этот тип архитектуры часто сочетается с модулями параллельного обучения для извлечения данных из различных модальностей, а затем их объединения в единое мультимодальное представление.

Intel Labs и Microsoft создают модель предварительного обучения по зрению и языку

Подобно подходам, описанным выше, работа исследовательской группы Cognitive AI (CAI) в Intel Labs сосредоточена на создании мультимодальных представлений с использованием архитектуры модели на основе преобразователя. Однако, в отличие от некоторых моделей, таких как CLIP (которая хороша для сопряжения изображения и текста на уровне экземпляра), подход группы когнитивного ИИ заключается в достижении точного выравнивания объектов в изображении и тексте. Разработанные архитектуры также позволяют предоставлять контекст полного изображения тому же мультимодальному преобразователю, который также обрабатывает текст.

Работая совместно с группой Microsoft Research Natural Language Computing (NLC), команда Cognitive AI недавно представила KD-VLP, модель, которая особенно эффективна для согласования видения и языка на уровне концепции. В архитектуре и задачах предварительного обучения особое внимание уделяется представлениям на уровне сущностей или объектности в системе. KD-VLP демонстрирует конкурентоспособность в таких задачах, как ответы на визуальные вопросы (VQA2.0), визуальное обоснование здравого смысла (VCR), поиск изображений и текста (IR/TR) на MSCOCO и Flickr30K, естественный язык для Визуальное мышление (NLVR2) и визуальное восприятие (SNLI-VE).

Обучение модели под самоконтролем приводит к формированию возникающих паттернов внимания, которые также поддаются интерпретации. Например, следующий ролик показывает, как меняется визуальное внимание модели, когда она обдумывает каждое слово в сопроводительном тексте. Эти паттерны дают ценную информацию о внутренней работе модели и о механизмах ее рассуждений. Такое понимание ценно при изучении пробелов в возможностях рассуждения модели, которые необходимо устранить.

Это сотрудничество с исследовательской группой Майкрософт позволило разработать решения, которые решают мультимодальные задачи, такие как ответы на вопросы по мультимодальному набору данных. Мультимодальная система, основанная на знаниях, в настоящее время лидирует в публичной таблице лидеров в задаче VisualCOMET, где системе ИИ необходимо рассуждать о динамическом содержании неподвижного изображения. Модель может вызвать динамическую сюжетную линию из одного изображения, например, как люди могут представить в воображении то, что произошло ранее и что может произойти дальше.

Это одномодельное решение также довольно конкурентоспособно в общедоступной таблице лидеров Визуального здравого смысла (VCR). В настоящее время оно входит в пятерку лучших среди однотипных решений, а наше решение WebQA вошло в список победителей конкурса NeurIPS2021. Решение WebQA включает в себя новый метод включения мультимодальных источников в модель генерации языка. Система может контекстуализировать изображения и текстовые источники с вопросом с помощью мультимодального кодировщика и эффективно объединять информацию из нескольких источников. Декодер использует результат этого слияния нескольких мультимодальных источников, чтобы ответить на запрос на естественном языке.

Заключение

Реальные среды по своей природе мультимодальны. Эта прикладная область позволяет исследовательскому сообществу ИИ еще больше ускорить переход ИИ от статистической аналитики одной модальности восприятия (например, изображений или текста) к многогранному представлению объектов и их взаимодействию, помогая добиться прогресса на пути от «формы». к «значению».

Рекомендации

  1. Ван, А., Пруксачаткун, Ю., Нангиа, Н., Сингх, А., Майкл, Дж., Хилл, Ф., … и Боуман, С. Р. (2019). Superglue: более надежный эталон для систем понимания языка общего назначения. Препринт arXiv arXiv: 1905.00537.
  2. Ван, А., Сингх, А., Майкл, Дж., Хилл, Ф., Леви, О., и Боуман, С.Р. (2018). GLUE: многозадачная платформа для тестирования и анализа естественного языка. Препринт arXiv arXiv: 1804.07461.
  3. Раджпуркар П., Цзя Р. и Лян П. (2018). Знай, чего ты не знаешь: вопросы без ответов для SQuAD. Препринт arXiv arXiv: 1806.03822.
  4. Раджпуркар П., Цзя Р. и Лян П. (2021). Стэнфордский набор данных для ответов на вопросы. https://rajpurkar.github.io/SQuAD-explorer/
  5. Хе, К., Чжан, X., Рен, С., и Сунь, Дж. (2015). Углубление в выпрямители: превосходство на уровне человека по классификации imagenet. В материалах международной конференции IEEE по компьютерному зрению (стр. 1026–1034).
  6. Викиданные. (2019). Получено 31 января 2022 г. с https://www.wikidata.org/wiki/Wikidata:Main_Page.
  7. Найт, В. (2020, 2 апреля). Американские военные хотят научить ИИ базовому здравому смыслу. Обзор технологий Массачусетского технологического института. https://www.technologyreview.com/2018/10/11/103957/the-us-military-wants-to-teach-ai-some-basic-common-sense/
  8. Павлус, Дж. (2020, 4 мая). Здравый смысл приходит к компьютерам. Журнал Кванта. https://www.quantamagazine.org/common-sense-comes-to-computers-20200430/
  9. Девлин, Дж., Чанг, М.В., Ли, К., и Тутанова, К. (2018). Берт: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка. Препринт arXiv arXiv: 1810.04805.
  10. Браун, Т. Б., Манн, Б., Райдер, Н., Суббиа, М., Каплан, Дж., Дхаривал, П., … и Амодей, Д. (2020). Языковые модели — это учащиеся с небольшим количеством попыток. Препринт arXiv arXiv: 2005.14165.
  11. Рэдфорд, А., Ким, Дж. В., Халласи, К., Рамеш, А., Го, Г., Агарвал, С., … и Суцкевер, И. (2021). Изучение переносимых визуальных моделей из наблюдения за естественным языком. Препринт arXiv arXiv: 2103.00020.
  12. Рамеш А., Павлов М., Гох Г., Грей С., Восс К., Рэдфорд А., … и Суцкевер И. (2021). Генерация текста в изображение с нулевым выстрелом. Препринт arXiv arXiv: 2102.12092.
  13. Никол, А., Дхаривал, П., Рамеш, А., Шьям, П., Мишкин, П., МакГрю, Б., … и Чен, М. (2021). Glide: на пути к созданию и редактированию фотореалистичных изображений с помощью текстовых моделей распространения. Препринт arXiv arXiv: 2112.10741.
  14. Кирога, Р. К., Редди, Л., Крейман, Г., Кох, К., и Фрид, И. (2005). Инвариантное визуальное представление одиночными нейронами в человеческом мозгу. Природа, 435 (7045), 1102–1107.
  15. Го Г., Каммарата Н., Восс К., Картер С., Петров М., Шуберт Л., … и Олах К. (2021). Мультимодальные нейроны в искусственных нейронных сетях. Дистилл, 6(3), е30.
  16. Золь-Дикштейн Дж., Вайс Э.А., Махесваранатан Н. и Гангули С. Глубокое обучение без учителя с использованием неравновесной термодинамики. архив: 1503.03585, 2015.
  17. Гоял Ю., Хот Т., Саммерс-Стей Д., Батра Д. и Парих Д. (2017). Как сделать v в vqa важным: повышение роли понимания изображения в визуальных ответах на вопросы. В материалах конференции IEEE по компьютерному зрению и распознаванию образов (стр. 6904–6913).
  18. Доу, З.Ю., Сюй, Ю., Ган, З., Ван, Дж., Ван, С., Ван, Л., … и Цзэн, М. (2021). Эмпирическое исследование обучения сквозных трансформеров зрения и языка. Препринт arXiv arXiv: 2111.02387.
  19. Ван, В., Бао, Х., Донг, Л., и Вэй, Ф. (2021). VLMo: унифицированное предварительное обучение языку видения с экспертами по смешанным модальностям. Препринт arXiv arXiv: 2111.02358.
  20. Чанг Ю., Наранг М., Судзуки Х., Цао Г., Гао Дж. и Биск Ю. (2021). WebQA: Multihop и Multimodal QA. Препринт arXiv arXiv: 2109.00590.
  21. Цзя, К., Ян, Ю., Ся, Ю., Чен, Ю. Т., Парех, З., Фам, Х., … и Дуриг, Т. (2021). Увеличение масштабов обучения визуальному представлению и языковому представлению с помощью наблюдения за зашумленным текстом. Препринт arXiv arXiv: 2102.05918.
  22. Цзя, К., и Ян, Ю. (2021, 11 мая). ВЫРАВНИВАНИЕ: расширение масштабов обучения визуальному и визуально-языковому представлению с наблюдением за шумным текстом. Блог Google AI. https://ai.googleblog.com/2021/05/align-scaling-up-visual-and-vision.html
  23. Тан, М., и Ле, К.В. (2019, 29 мая). EfficientNet: повышение точности и эффективности с помощью AutoML и масштабирования модели. Блог Google AI. https://ai.googleblog.com/2019/05/efficientnet-improving-accuracy-and.html
  24. Девлин, Дж., и Чанг, М. (2 ноября 2018 г.). BERT с открытым исходным кодом: современная предварительная подготовка для обработки естественного языка. Блог Google AI. https://ai.googleblog.com/2018/11/open-source-bert-state-of-art-pre.html
  25. Майкрософт. (2021, 14 декабря). Проект Флоренция-ВЛ. Исследования Майкрософт. https://www.microsoft.com/en-us/research/project/project-florence-vl/
  26. Лей, Дж., Ли, Л., Чжоу, Л., Ган, З., Берг, Т.Л., Бансал, М., и Лю, Дж. (2021). Чем меньше, тем лучше: Clipbert для обучения языку и видео с помощью разреженной выборки. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 7331–7341).
  27. Фу, Т.Дж., Ли, Л., Ган, З., Лин, К., Ван, В.Ю., Ван, Л., и Лю, З. (2021). VIOLET: Сквозные преобразователи видеоязыка с моделированием маскированных визуальных токенов. Препринт arXiv arXiv: 2111.12681.
  28. Лин, К., Ли, Л., Лин, К.С., Ахмед, Ф., Ган, З., Лю, З., … и Ван, Л. (2021). SwinBERT: сквозные преобразователи с редким вниманием к видеозаписям. Препринт arXiv arXiv: 2111.13196.
  29. Лю Ю., Ву К., Ценг С.Ю., Лал В., Хе Х. и Дуан Н. (2021). Kd-vlp: Улучшение сквозного предварительного обучения зрению и языку с помощью дистилляции знаний об объектах. Препринт arXiv arXiv: 2109.10504.
  30. Антол, С., Агравал, А., Лу, Дж., Митчелл, М., Батра, Д., Зитник, К.Л., и Парих, Д. (2015). Vqa: визуальный ответ на вопрос. В материалах международной конференции IEEE по компьютерному зрению (стр. 2425–2433).
  31. Зеллерс Р., Биск Ю., Фархади А. и Чой Ю. (2019). От узнавания к познанию: визуальное рассуждение на основе здравого смысла. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 6720–6731).
  32. Лин, Т.Ю., Майр, М., Белонги, С., Хейс, Дж., Перона, П., Раманан, Д., … и Зитник, К.Л. (2014, сентябрь). Microsoft coco: общие объекты в контексте. На европейской конференции по компьютерному зрению (стр. 740–755). Спрингер, Чам.
  33. Янг П., Лай А., Ходош М. и Хоккенмайер Дж. (2014). От описаний изображений к визуальным обозначениям: новые показатели сходства для семантического вывода по описаниям событий. Труды Ассоциации компьютерной лингвистики, 2, 67–78.
  34. Зур А., Чжоу С., Чжан А., Чжан И., Бай Х. и Арци Ю. (2018). Корпус рассуждений о естественном языке, основанный на фотографиях. Препринт arXiv arXiv: 1811.00491.
  35. Се Н., Лай Ф., Доран Д. и Кадав А. (2018). Задание визуального следования для визуального изучения языка. Препринт arXiv arXiv: 1811.10582.
  36. Майкрософт. (2022, 19 января). Вычисление на естественном языке. Исследования Майкрософт. https://www.microsoft.com/en-us/research/group/natural-language-computing/
  37. Парк, Дж. С., Бхагаватула, К., Моттаги, Р., Фархади, А., и Чой, Ю. (2020, август). VisualCOMET: Рассуждение о динамическом контексте неподвижного изображения. На Европейской конференции по компьютерному зрению (стр. 508–524). Спрингер, Чам.