В новой статье от Meta AI представлена CM3Leon, авторегрессивная мультимодальная модель, которая обеспечивает современную генерацию текста в изображение с помощью эффективного подхода к обучению.
Ключевые моменты
- CM3Leon — это модель с расширенным поиском, основанная на токенах и предназначенная только для декодера, которая может генерировать и заполнять как текст, так и изображения.
- Он основан на архитектуре CM3, но демонстрирует преимущества масштабирования и обучения на более разнообразных данных в стиле инструкций.
- CM3Leon обучается в два этапа:
- Крупномасштабное предварительное обучение с расширенным поиском с использованием лицензированных данных Shutterstock (текстовые токены 3B).
- Многозадачная контролируемая точная настройка разнообразного набора текстовых и графических задач, представленных в виде инструкций.
- Для предварительной подготовки модель обучается заполнять и генерировать продолжения из подсказок, таких как «Изображение кошки:», используя стандартную авторегрессионную потерю. Расширение поиска предоставляет соответствующие примеры для помощи в генерации.
- Тонкая настройка предоставляет модели широкий спектр задач по созданию изображений (например, преобразование текста в изображение) и создание текста на основе изображений (например, создание подписей).
- CM3Leon достигает современного значения MS-COCO FID 4,88 для нулевого преобразования текста в изображение, используя в 5 раз меньше вычислений, чем сопоставимые модели.
- После тонкой настройки модель демонстрирует широкие возможности управляемой генерации для таких задач, как редактирование изображений с текстовым управлением.
- Результаты демонстрируют потенциал масштабирования авторегрессионных моделей и адаптации методов текстового обучения. Предварительное обучение плюс тонкая настройка позволяют создать гибкую и эффективную мультимодальную модель.
В целом, эта работа показывает, как мы можем вывести авторегрессионные модели за рамки простого преобразования текста в изображение. Благодаря эффективным методам обучения, адаптированным из текстовых методов, CM3Leon устанавливает новые стандарты для управляемой мультимодальной генерации как изображений, так и текста.