Введение

Изображения действительно обязывают. Изображение пляжа напоминает приятный шум волн, и когда я просто говорю слова «солнце, песчаный пляж и напиток», вы представляете тот же образ с солнечным светом, и вы сидите в нем с напитком. Все просто потому, что человеческий разум не только получает информацию через звук, видео, текст или прикосновение, но также каким-то образом согласовывает эти модальности, чтобы построить мысленную карту всех воспринятых данных.

Хотя в наши дни в Интернете существует множество данных, созданных людьми, только некоторые из них естественным образом связаны с изображениями или видео. Например, видео и аудио естественным образом выровнены в сети, с помощью которой мы можем обучить только модель изображения и звука. Но как насчет других модальностей, таких как аудио и текст? Так можем ли мы придумать способ связать множество модальностей вместе с изображениями? Это именно то, к чему обращается документ ImageBind. Это показывает, что появление согласования между модальностями называется эмерджентным согласованием, и результаты весьма многообещающие. Без лишних слов давайте углубимся в ImageBind.

CLIP и мотивация для ImageBind

Идея связывания или соединения модальностей в масштабе с использованием данных веб-масштаба была впервые реализована в CLIP, что означает предварительное обучение изображений на контрастном языке. CLIP принимает текстовые подсказки и изображения в качестве входных данных и семантически связывает их. Он делает это в веб-масштабе, обучаясь на наборе данных из 200 миллионов пар изображения и текста под названием WebImageText, которые были полностью собраны из Интернета без какой-либо ручной маркировки.

CLIP ввел контрастное обучение, которое должно отличать положительное сочетание изображения и текста от отрицательного сочетания изображений и текстовых комбинаций (см. Рисунок выше). Это простое переключение на контрастную цель сделало CLIP намного более эффективным по сравнению с использованием прогнозирующей цели стандартных классификаторов. Используемая потеря была названа потерей InfoNCE, которая максимизирует сходство между правильными парами и минимизирует сходство между неправильными парами.

Подобно подходу CLIP к использованию контрастного обучения для пар модальностей, а именно изображения и текста, были и другие работы, вдохновленные CLIP, которые сочетают другие модальности, такие как аудио с изображениями, а именно Audioclip, который сочетает аудио и текст. Есть также такие идеи, как Контрастное многоракурсное кодирование, которое объединяет изображения с глубиной. Кроме того, есть такие работы, как «Различение аудиовизуальных экземпляров с кросс-модальным соглашением», которые объединяют видео и аудио.

Самая большая проблема с этими сочетаниями заключается в том, что одно бесполезно для другого. Например, модель, предварительно обученная встраиванию изображения в текст, бесполезна для аудио. Именно эту проблему решает ImageBind.

Быстрый крик

Кстати, если вам нравится наш блог, почему бы не проверить наш канал YouTube, где мы рассказываем статьи и идеи ИИ. ImageBind также объясняется в видео.

ImageBind и несколько модальностей

ImageBind рассматривает несколько модальностей, а именно — изображение/видео, текст, звук, глубину, температуру и IMU, что означает инерциальную измерительную единицу и включает в себя акселерометр и гироскоп. Основная цель этой работы — изучить «единое совместное пространство встраивания для всех модальностей» и использовать изображения в качестве связующей модальности.

Если I обозначает изображения или видео, а M обозначает любую другую модальность, то мы используем глубокие нейронные сети в качестве кодировщиков для извлечения вложений из каждой из модальностей. Для каждой модальности существует отдельный кодировщик. В частности, они используют варианты Vision Transformers для всех кодировщиков. Для изображений и видео они используют ViT-H, а для кодирования текста используют OpenCLIP. Для звука они используют ViT-B, а для термального и глубинного — ViT-S.

Во время обучения ImageBind веса архитектур кодировщика изображения и текста остаются замороженными, а веса всех других модальностей обновляются. Поскольку эти две модели заморожены, они используют предварительно обученные модели для кодирования изображений и текстов. Это замораживание обеспечивает появление выравнивания между модальностями, для которых у нас нет естественного выравнивания, например, между звуком и глубиной.

Поскольку входные данные представлены в разных формах, перед их использованием выполняется небольшая предварительная обработка. Например, при работе с видео они выбирают 2 кадра из 2 секунд данного видео. Со звуком они преобразуют 2-секундные аудиоклипы в мел-спектрограммы. Тепловые изображения и изображения глубины обрабатываются как одноканальные изображения. Когда дело доходит до IMU, у него есть измерения акселерометра и гироскопа, которые имеют измерения X, Y и Z. Они берут 5-секундный клип данных и проецируют с использованием одномерных сверток, которые снова подаются в архитектуру преобразователя.

Предварительно обработанные входные данные затем передаются через кодировщики, чьи выходные данные затем проходят через простой линейный слой, чтобы убедиться, что они имеют одинаковую размерность, перед обучением с потерей, называемой потерей InfoNCE. Предположим, что результат встраивания изображения или видео – q, а результат любого другого модальности – k. При этом давайте посмотрим на функцию потерь.

Функция потери

Функция потерь InfoNCE выглядит немного пугающе в статье, и это модифицированная потеря перекрестной энтропии, и она расширяет идею контрастного обучения на несколько модальностей.

Чтобы понять это, я собираюсь упростить его, сначала убрав температуру tau, которая тривиальна, что приводит к этому упрощенному уравнению (см. Рисунок выше). Во время обучения мы собираемся оптимизировать эту потерю, чтобы достичь минимума. Потеря представляет собой отрицательную логарифмическую функцию, и график отрицательного логарифма выглядит примерно так, что указывает на то, что для минимизации значения y нам нужно достичь высоких значений x. Это означает, что нам нужно увеличить числитель и уменьшить знаменатель настолько, насколько это возможно. Числитель — это не что иное, как скалярное произведение или сходство вложений из модальности изображения q и любой другой модальности k, и это только для положительных случаев, поскольку оба q и k имеют индекс i, указывающий на то, что они являются положительными парами. Знаменатель, с другой стороны, является точечным произведением вложений отрицательных случаев, которые не образуют пару. Таким образом, оптимизация этого уравнения сближает встраивание различных модальностей для положительного примера и отдаляет отрицательные случаи далеко друг от друга.

Что касается вложений, потеря сближает вложения и создает совместное пространство вложений, чтобы связать воедино все модальности k с модальностью изображения q. Это обеспечивает появление выравнивания между модальностями, с которыми у нас нет естественного выравнивания, и это то, что они называют эмерджентным выравниванием в статье.

Полученные результаты

Чтобы продемонстрировать эмерджентное выравнивание, они решили показать нулевую классификацию глубины, звука, тепловизора и IMU с помощью текстовых подсказок. Вы можете заметить, что эти наборы данных выровнены с изображениями. Но результаты отображаются для текстовых подсказок в качестве ввода. Таким образом, каким-то образом возникла согласованность между текстом и другими модальностями. Поскольку ImageBind настолько новатор, что нет реального базового уровня для сравнения.

Они также показывают, что могут выполнять поиск и классификацию звука даже без обучения или тонкой настройки каких-либо аудиоданных. Что нет, это единственный эмерджентный подход, а все остальное каким-то образом обучается на конкретных аудиоданных.

У нас также есть возможность выполнять арифметику встраивания пространства, когда мы предоставляем входное изображение, скажем, изображение с ягодами, а в аудио мы говорим щебетание птиц, а выходное сгенерированное изображение похоже на изображение птиц, сидящих на ягодных деревьях и щебечущих.

И последнее, но не менее важное: они также показывают, что обнаружение возражений можно контролировать с помощью простого аудиовхода, просто заменив вложения CLIP вложениями ImageBind, что приведет к детектору объектов, который вызывается звуком. Это также происходит без какого-либо дальнейшего переобучения какой-либо из моделей. Они также включили в документ множество исследований абляции, чтобы показать влияние проекционной головки кодировщика, периоды обучения и увеличение данных парных изображений. Я не буду вдаваться в подробности и призываю вас взглянуть на документ, ссылку на который я дал в описании этого видео.

Заключение

Это одна из работ, которую я очень ждал. Был достигнут значительный прогресс по всем направлениям в отдельных модальностях, таких как текст, изображения и аудио. Но не было ни одной работы, которая собирала бы все вместе, чтобы связать их всех. Наконец-то это пришло из Meta — это ImageBind!