14 июля 2023 г., Масштабирование авторегрессионных мультимодальных моделей: предварительная подготовка и настройка инструкций — Лили Ю, Боуэн Ши, Рам Пасунуру, Бенджамин Миллер, Ольга Головнева, Тианлу Ван, Арун Бабу, Бинь Тан, Брайан Каррер, Шелли Шейнин, Кэндис Росс, Адам Поляк, Расс Хоус, Васу Шарма, Джейкоб Сюй, Уриэль Сингер, Даниэль Ли (ИИ), Гарги Гош, Янив Тайгман, Марьям Фазель-Заранди, Асли Челикилмаз, Люк Зеттлемойер, Армен Агаджанян

В новой статье от Meta AI представлена ​​CM3Leon, авторегрессивная мультимодальная модель, которая обеспечивает современную генерацию текста в изображение с помощью эффективного подхода к обучению.

Ключевые моменты

  • CM3Leon — это модель с расширенным поиском, основанная на токенах и предназначенная только для декодера, которая может генерировать и заполнять как текст, так и изображения.
  • Он основан на архитектуре CM3, но демонстрирует преимущества масштабирования и обучения на более разнообразных данных в стиле инструкций.
  • CM3Leon обучается в два этапа:
  • Крупномасштабное предварительное обучение с расширенным поиском с использованием лицензированных данных Shutterstock (текстовые токены 3B).
  • Многозадачная контролируемая точная настройка разнообразного набора текстовых и графических задач, представленных в виде инструкций.
  • Для предварительной подготовки модель обучается заполнять и генерировать продолжения из подсказок, таких как «Изображение кошки:», используя стандартную авторегрессионную потерю. Расширение поиска предоставляет соответствующие примеры для помощи в генерации.
  • Тонкая настройка предоставляет модели широкий спектр задач по созданию изображений (например, преобразование текста в изображение) и создание текста на основе изображений (например, создание подписей).
  • CM3Leon достигает современного значения MS-COCO FID 4,88 для нулевого преобразования текста в изображение, используя в 5 раз меньше вычислений, чем сопоставимые модели.
  • После тонкой настройки модель демонстрирует широкие возможности управляемой генерации для таких задач, как редактирование изображений с текстовым управлением.
  • Результаты демонстрируют потенциал масштабирования авторегрессионных моделей и адаптации методов текстового обучения. Предварительное обучение плюс тонкая настройка позволяют создать гибкую и эффективную мультимодальную модель.

В целом, эта работа показывает, как мы можем вывести авторегрессионные модели за рамки простого преобразования текста в изображение. Благодаря эффективным методам обучения, адаптированным из текстовых методов, CM3Leon устанавливает новые стандарты для управляемой мультимодальной генерации как изображений, так и текста.