Meta Platforms Inc. сегодня подробно описала CM3leon, модель искусственного интеллекта, созданную для задач генерации изображений, которую можно обучить, используя лишь часть аппаратного обеспечения, необходимого для аналогичных нейронных сетей.

Мета говорит, что у CM3leon есть и другие примечательные особенности. Несмотря на то, что он был обучен с использованием ограниченного количества аппаратного обеспечения, мастерство генерации изображений ИИ сравнимо с мастерством самых передовых нейронных сетей в своей категории, говорится в сообщении. Кроме того, CM3leon может выполнять более широкий спектр задач, чем многие конкурирующие системы.

Большинство передовых моделей генерации изображений основаны на подходе машинного обучения, известном как диффузия. Чтобы создать систему искусственного интеллекта на основе диффузии, исследователи собирают набор изображений и вносят в каждый файл тип ошибки, называемый гауссовским шумом. Затем они поручают модели ИИ удалить гауссовский шум — упражнение, с помощью которого модель учится создавать новые изображения с нуля.

Meta использовала другой подход с CM3leon. Вместо использования метода диффузии исследователи компании основали модель на так называемой архитектуре Transformer. Этот дизайн нейронной сети чаще всего используется для построения больших языковых моделей, таких как GPT-4 OpenAI LP.

CM3leon — не первый генератор изображений на основе трансформера. Тем не менее, Meta утверждает, что он значительно более эффективен, чем другие записи в этой категории. Компания говорит, что она обучила его, используя в пять раз меньше вычислительной инфраструктуры, чем требовалось в более ранних подходах ИИ.

По словам Меты, он также выделяется в отделе точности.

Модели генерации изображений часто пытаются точно следовать описанию пользователя при рисовании объектов. Модели часто пропускают или неправильно понимают детали, указанные в подсказке ввода. Чем сложнее объект, который пользователь хочет нарисовать, тем больше вероятность появления ошибок.

Согласно Meta, CM3leon может генерировать изображения более точно, чем многие более ранние системы. В серии тестов компания успешно использовала модель для рисования объектов на основе сложных описаний, таких как «маленький кактус в соломенной шляпе и неоновых очках в пустыне Сахара». Более того, он установил новый рекорд в популярном тесте, используемом для оценки точности моделей преобразования текста в изображение.

«При сравнении производительности в наиболее широко используемом тесте генерации изображений (нулевой выстрел MS-COCO) CM3Leon достигает оценки FID (Fréchet Inception Distance) 4,88, устанавливая новый уровень искусства в генерации текста в изображение и превосходя модель Google для преобразования текста в изображение, Parti», — подробно описали исследователи Meta в своем блоге.

Многие генераторы изображений AI могут принимать только текст в качестве входных данных. CM3leon, напротив, также может загружать изображения. Пользователи могут загрузить фотографию в модель и попросить ее внести изменения, создать подпись или ответить на вопросы на естественном языке об изображенных объектах.

По словам Меты, он особенно хорошо справляется с двумя последними задачами. Компания сравнила возможности искусственного интеллекта в отношении субтитров и ответов на вопросы с двумя моделями, которые были обучены на более чем в десять раз большем количестве данных. В некоторых задачах CM3leon либо сравнялся, либо превзошел производительность двух конкурирующих моделей.

«Мы считаем, что высокая производительность CM3leon в различных задачах — это шаг к более точному созданию и пониманию изображений», — пишут исследователи из Meta. «Такие модели, как CM3leon, в конечном итоге могут помочь повысить креативность и улучшить приложения в метавселенной».