Один из самых эффективных процессов обучения для моделей преобразования текста в изображение из когда-либо реализованных.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 160 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



Salesforce была одной из самых активных исследовательских лабораторий в новой волне базовых моделей. В последние месяцы Salesforce Research выпустила множество моделей в различных областях, таких как язык, программирование и компьютерное зрение. Недавно они представили XGen-Image-1, масштабную модель преобразования текста в изображение, которая показывает состояние передовой производительности в различных задачах компьютерного зрения. Вместе с выпуском Salesforce Research предоставила много подробностей о методологии обучения и передовых методах, используемых в XGen-Image-1. Сегодня я хотел бы углубиться в некоторые из этих деталей.
Процесс создания XGen-Image-1 включал в себя ряд очень сложных решений, начиная от выбора стратегического дизайна и методологий обучения и заканчивая показателями производительности, касающимися первых моделей генерации изображений.

  • Обучение модели. С точки зрения архитектуры XGen-Image-1 представляет собой скрытую диффузионную модель с 860 миллионами параметров. Для обучения Salesforce Research использовала 1,1 миллиарда общедоступных наборов данных LAION для пар текст-изображение.
    • Управление разрешением:XGEn-Image-1 использует скрытое автокодирование переменных (VAE) с легкодоступными пиксельные повышающие дискретизаторы облегчили обучение при особенно низком разрешении, тем самым эффективно снизив вычислительные затраты.
    • Экономическая эффективность. Стоимость всегда является важной переменной, когда речь идет об обучении модели преобразования текста в изображение. В случае с XGen-Image-1 специалисты Salesforce Research установили, что конкурентоспособную модель создания изображений можно создать с помощью стека Google TPU при скромных инвестициях в размере примерно 75 000 долларов США.
    • Паритет производительности: Примечательно, что XGen-Image-1 продемонстрировал производительность выравнивания, аналогичную моделям Stable Diffusion 1.5 и 2.1, которые стоят в авангарде мастерства создания изображений.
    • Автоматическое уточнение. форма автоматических улучшений в определенных регионах посредством подкраски. Например, такие области, как «лицо», подверглись уточнению, что значительно улучшило сгенерированные изображения.
    • Улучшение логического вывода: за счет интеграции выборки отбраковки во время логического вывода качество результатов значительно повысилось, о чем свидетельствует свидетельство. в силу вдумчивой методологической аугментации.

Обучение

Большинство моделей преобразования текста в изображение впервые разработали собственную методологию обучения. XGen-Image-1 наметил другой курс, сосредоточив внимание не на простых задачах обработки, кодирования и повышения частоты дискретизации, а на степени их повторного использования. Эта отличительная точка зрения побудила их экспериментировать с порогами эффективного обучения, исследуя границы обучения с низким разрешением посредством объединения предварительно обученных моделей автокодирования и повышения дискретизации на основе пикселей.

Как наглядно показано в конвейере, предварительно обученный автоэнкодер в сочетании с дополнительными пиксельными повышающими дискретизаторами обеспечивает генерацию с низким разрешением при создании великолепных изображений (1024x1024). Их взгляд простирается на дальнейшее исследование практических нижних границ разрешения. Количественная оценка происходит на стыке 256x256, сразу после фазы VAE без повышения частоты дискретизации. Качественная оценка использует «повторный апсемплер», перемещающийся с 256 до 64 и далее 256, отражающий «Refiner» SDXL, а также повышающий дискретизатор с 256 до 1024.

Учебная инфраструктура

Salesforce Research провела обучение моделей на TPU v4. В процессе обучения команда использовала Google Cloud Storage (GCS) для сохранения контрольных точек модели. Кроме того, диски, установленные в Gloud, использовались для хранения обширных наборов данных. На машине v4–512 TPU развернут надежный режим обучения, включающий 1,1 миллиона шагов в течение примерно 9 дней, включая затраты на оборудование около 73 тысяч долларов, что очень дешево по сравнению с альтернативами!

Процесс прошел не без трудностей. Потери модели демонстрировали беспорядочные колебания от шага к шагу, несмотря на большие размеры партий. Основная причина была связана с равномерным посевом всех работников, что привело к такой волатильности. Разрешение материализовалось за счет случайного заполнения, выровненного с рангом каждого работника, что способствовало сбалансированному распределению шагов шума и привело к более плавным кривым потерь.

Оценка

Для оценки XGen-Image-1 компания Salesforce Research использовала методологию, включающую представление по двум осям, где ось X отображает показатель CLIP — воплощение выравнивания с подсказками, а ось Y инкапсулирует FID (начальное расстояние Фреше), индикатор сходства внешнего вида в наборе данных. Эта оценка проводится по 15 шкалам наведения, включая 30 000 пар изображений и подсказок в исходной цифре. Для сравнения между контрольными точками эта область сужается до 1000 пар. Пары данных тщательно отобраны из набора данных COCO Captions, в котором подписи дополнены «фотографией», чтобы смягчить штрафы FID, связанные с несопоставимыми графическими стилями.

Salesforce Research также использовала человеческую оценку для сравнительного анализа XGen-Image-1. Эта оценка, проведенная через Amazon Mechanical Turk, включает в себя участников, проницательных выравнивания изображений. Решительно стремясь к точности, респонденты взаимодействуют со всеми 1632 запросами в шести различных испытаниях, что приводит к значительному хранилищу примерно 10 000 ответов на сравнение.

Генерация высококачественных изображений

Важной частью построения XGen-Image-1 было обеспечение того, чтобы он генерировал изображения высокого качества. Этот процесс был основан на двух хорошо известных приемах.
Первоначальная стратегия заключалась в создании большого массива изображений и последующем выборе наиболее оптимальных. Придерживаясь твердого принципа поддержки структуры «одно приглашение — один результат», Salesforce Research углубилась в автоматизацию этой методологии. Изучение этого подхода привело их к выборке отбраковки — методу, включающему создание нескольких изображений с последующим автоматическим выбором наиболее подходящего кандидата. Первоначально рассматривался ряд показателей, включая эстетическую оценку и оценку CLIP. В конечном счете, команда пришла к выводу, что PickScore является надежной всеобъемлющей метрикой. Этот показатель, как подтверждается в литературе, продемонстрировал замечательное соответствие человеческим предпочтениям — ключевой черте. Следуя этой методологии, XGen-Image-1 генерирует 32 изображения (в сетке 4x8) примерно за 5 секунд на графическом процессоре A100 и выбирает то, которое имеет наивысший балл.

Второй метод, являющийся образцом улучшения изображения, материализовался через закрашивание областей, которые представляли неоптимальную эстетику.

  1. Маски сегментации, экстраполированные из подсказок, инкапсулировали целевой объект.
    2. Объекты были должным образом обрезаны на основе этих масок сегментации.
    3. Обрезка подверглась расширению.
    4. Использование операций img2img на кадрирование, параллельное подсказке о сегментации с соответствующими подписями (например, «фотография лица»), упростило региональное уточнение.
    5. Маска сегментации сыграла ключевую роль в плавном смешивании увеличенного кадрирования с исходным изображением.
    Комбинация обоих методов привела к созданию высококачественного изображения в XGen-Image-1.

XGen-Image-1 не является прорывом в модели преобразования текста в изображение, но он все же вносит очень полезный вклад. Самая большая из них — продемонстрировать, что можно повторно использовать многие предварительно обученные компоненты для достижения самой современной производительности в модели этого типа. X-Gen-Image-1 добился производительности, аналогичной StableDiffusion, при использовании части обучающих вычислительных ресурсов. Очень впечатляет.