В быстро развивающейся области искусственного интеллекта (ИИ) разработка мультимодальных моделей изменила правила игры, позволяя системам ИИ обрабатывать различные типы данных, такие как текст, изображения, аудио, видео, графики и таблицы. . Сегодня мы рады представить Meta-Transformer, новаторскую мультимодальную базовую модель, которая превзошла все существующие эталоны, включая современную (SOTA) модель ImageBind, легко обрабатывая ошеломляющие двенадцать различных модальностей ввода.

Сила Мета-Трансформера

Meta-Transformer — это инновационная архитектура искусственного интеллекта, которая включает в себя три важнейших компонента, позволяющих достичь беспрецедентного уровня производительности:

  1. Облегченные токенизаторы Data-to-Sequence: чтобы преодолеть разрыв между различными способами ввода и архитектурой преобразователя, Meta-Transformer использует специализированные токенизаторы для каждого типа данных. Эти токенизаторы умело преобразуют различные сигналы в токены, обеспечивая плавную интеграцию с моделью преобразователя.
  2. Мультимодальный преобразователь: сердце Мета-трансформера лежит в его мультимодальном преобразователе. Этот мощный компонент отображает входные токены из всех модальностей в общее репрезентативное пространство. Этот унифицированный подход позволяет модели эффективно обрабатывать и понимать сложности, присущие различным типам данных.
  3. Головки для конкретных задач: для решения конкретных задач Meta-Transformer использует головки для конкретных задач. Эти головки точно настроены для удовлетворения уникальных требований различных задач, что еще больше повышает адаптивность и универсальность модели.

Процесс предварительной подготовки

Прежде чем полностью реализовать свой потенциал, Мета-Трансформер проходит важную фазу предварительной подготовки с использованием контрастного проигрыша. На этом этапе модель учится на наборе данных LAION-2B, содержащем пары изображение-текст. Процесс предварительной подготовки снабжает модель широким пониманием межмодальных отношений, что составляет основу ее исключительной производительности.

Точная настройка для определенных приложений

После предварительной подготовки базовая модель трансформатора остается замороженной, в то время как легкие токенизаторы и головки для конкретных задач настраиваются для конкретных задач. Этот подход гарантирует, что предварительно изученные знания модели сохраняются при настройке ее производительности для отдельных приложений. Опционально, для задач, где важна максимальная производительность, можно выполнить точную настройку веса модели трансформатора с сердечником, хотя и за счет некоторой общности.

Непревзойденная производительность

Результаты работы Мета-Трансформера поистине замечательны. Он демонстрирует паритет с моделями SOTA, специфичными для модальности, с производительностью, сравнимой с тестами языковых моделей (GLUE), и превосходит ConvNext в классификации ImageNet. Примечательно, что по сравнению с предыдущей ведущей мультимодальной моделью ImageBind, Meta-Transformer демонстрирует значительно улучшенное качество во всех оцениваемых задачах, укрепляя свое превосходство в этой области.

Заключение

Meta-Transformer представляет собой гигантский скачок в области мультимодальных моделей ИИ. Его беспрецедентная способность обрабатывать дюжину различных входных модальностей эффективно объединяет различные сигналы в согласованное представление, преодолевая ограничения предыдущих моделей. Превзойдя существующие тесты SOTA и установив новые стандарты в различных задачах, Meta-Transformer открывает захватывающие возможности для будущих приложений ИИ.

Ссылка на документ: Мета-трансформер: объединение видения, языка и других модальностей с помощью сильного трансформера основы