Глубокое обучение

GANsformers: создавайте сложные сцены с помощью GAN и трансформаторов

Они в основном используют механизм внимания трансформеров в мощной архитектуре StyleGAN2, чтобы сделать ее еще более мощной!

Смотреть видео:

На прошлой неделе мы рассмотрели DALL-E, последний документ OpenAI.
В нем используется архитектура, аналогичная GPT-3, с использованием преобразователей для создания изображения из текста. Это очень интересная и сложная задача, которая называется преобразованием текста в изображение. Как вы можете видеть на видео ниже, результаты были на удивление хорошими по сравнению с предыдущими современными методами. В основном это связано с использованием трансформаторов и большим объемом данных.

На этой неделе мы рассмотрим очень похожую задачу, называемую визуальным генеративным моделированием. Если целью является создание полной сцены с высоким разрешением, например дороги или комнаты, а не отдельного лица или конкретного объекта. Это отличается от DALL-E, поскольку мы генерируем эту сцену не из текста, а из обученной модели на конкретном стиле сцен. В данном случае это спальня.

Скорее, это похоже на StyleGAN, который может генерировать уникальные и несуществующие человеческие лица, обученные на наборах данных реальных лиц.

Разница в том, что он использует эту архитектуру GAN традиционным генеративным и дискриминационным способом со сверточными нейронными сетями. Классическая архитектура GAN должна иметь генератор, обученный генерировать изображение, и дискриминатор, используемый для измерения качества сгенерированных изображений, угадывая, является ли это реальным изображением, полученным из набора данных, или поддельным изображением, созданным первой сетью. Обе сети обычно состоят из сверточных нейронных сетей. Если генератор выглядит так, в основном он состоит из понижающей дискретизации изображения с использованием сверток для его кодирования, а затем повторного повышения дискретизации изображения с использованием сверток для создания новой «версии» изображения с тем же стилем на основе кодирования, которое является почему он называется StyleGAN. Затем дискриминатор берет это сгенерированное изображение или изображение из вашего набора данных и пытается выяснить, настоящее оно или сгенерированное, что называется фальшивым.

Вместо этого они используют механизм внимания трансформеров внутри мощной архитектуры StyleGAN2, чтобы сделать ее еще более мощной. Внимание - важная особенность этой сети, позволяющая ей определять глобальные зависимости между вводом и выводом. В этом случае между входом на текущем шаге архитектуры и ранее закодированным скрытым кодом, как мы увидим через минуту.

Прежде чем погрузиться в это, если вы не знакомы с трансформерами или вниманием, я предлагаю вам посмотреть видео, которое я сделал о трансформерах.

Для получения дополнительных сведений и лучшего понимания внимания вам следует взглянуть на видео «Внимание - это все, что вам нужно» от друга-ютубера и моего вдохновителя, Янника Килчера, освещающего эту удивительную статью.

Итак, мы знаем, что они использовали трансформаторы и GAN вместе для создания лучших и более реалистичных сцен, объясняя название этой статьи, GANsformer, но почему и как они это сделали?

Что касается причины, они сделали это для автоматического создания сложных и реалистичных сцен, подобных этой. Это может быть мощным приложением для многих отраслей, таких как фильмы или видеоигры, требующие гораздо меньше времени и усилий, чем если бы художник создал их на компьютере или даже заставил их сфотографировать в реальной жизни. Кроме того, представьте, насколько это может быть полезно для дизайнеров в сочетании с преобразованием текста в изображение, генерируя множество разных сцен из одного ввода текста и нажимая случайную кнопку!

Они использовали самую современную архитектуру StyleGAN, потому что GAN являются мощными генераторами, когда мы говорим об общем имидже. Поскольку GAN работают с использованием сверточных нейронных сетей, они по своей природе используют локальную информацию о пикселях, объединяя их, чтобы в конечном итоге получить общую информацию об изображении, упуская из виду дальнодействующее взаимодействие удаленных пикселей по той же причине. Это делает сети GAN мощными генераторами общего стиля изображения. Тем не менее, они гораздо менее эффективны в отношении качества мелких деталей сгенерированного изображения по той же причине. Невозможность контролировать стиль локализованных областей внутри самого сгенерированного изображения.

Вот почему у них возникла идея объединить трансформаторы и GAN в архитектуру, которую они назвали «Двудольным трансформатором».

Как уже было доказано в GPT-3 и многих других документах, преобразователи очень эффективны для взаимодействия на большом расстоянии, построения зависимостей между ними и понимания контекста текста или изображений.

Можно сказать, что они просто добавили уровни внимания, которые являются основой сети трансформаторов, между сверточными слоями как генератора, так и дискриминатора. Таким образом, вместо того, чтобы сосредотачиваться на использовании глобальной информации и глобальном управлении всеми функциями, как это делают свертки по своей природе, они используют это внимание для распространения информации от локальных пикселей в глобальное высокоуровневое представление и наоборот. Как и другие преобразователи, применяемые к изображениям, этот слой внимания принимает положение пикселей и скрытые пространства StyleGAN2 W и Z. Скрытое пространство W - это кодирование ввода в промежуточное скрытое пространство, выполняемое в начале сети, обозначенное здесь как A. В то время как кодирование Z - это всего лишь результирующие характеристики входа на текущем шаге в сети.

Это делает генерацию более «выразительной» по всему изображению, особенно при генерации изображений, изображающих сцены с несколькими объектами.

Конечно, это был всего лишь обзор новой статьи Facebook AI Research и Стэнфордского университета. Я настоятельно рекомендую прочитать статью, чтобы лучше понять этот подход. Это первая ссылка в приведенных ниже ссылках. Код также доступен, и он также будет указан в ссылках.

Если вам нравится моя работа и вы хотите быть в курсе технологий искусственного интеллекта, вы обязательно должны подписаться на меня в моих каналах в социальных сетях.

  • Подписывайтесь на мой канал YouTube.
  • Следите за моими проектами в LinkedIn и здесь, на Medium.
  • Изучайте ИИ вместе, присоединяйтесь к нашему сообществу Discord, делитесь своими проектами, статьями, лучшими курсами, находите товарищей по команде Kaggle и многое другое!

использованная литература

Документ: https://arxiv.org/pdf/2103.01209.pdf
Код: https://github.com/dorarad/gansformer
Полная справка: Дрю А. Хадсон и К. Лоуренс Зитник, Generative Adversarial Transformers, (2021), опубликовано на Arxiv, аннотация: Мы представляем GANsformer, новый и эффективный тип трансформатор, и исследуйте его для задачи визуального генеративного моделирования. Сеть использует двудольную структуру, которая обеспечивает взаимодействие на большом расстоянии через изображение, сохраняя при этом линейную эффективность вычислений, которая может легко масштабироваться до синтеза с высоким разрешением. Он итеративно передает информацию от набора скрытых переменных к развивающимся визуальным характеристикам и наоборот, чтобы поддерживать уточнение каждого в свете другого и поощрять появление композиционных представлений объектов и сцен. В отличие от классической архитектуры трансформатора, он использует мультипликативную интеграцию, которая обеспечивает гибкую модуляцию на основе области, и, таким образом, может рассматриваться как обобщение успешной сети StyleGAN. Мы демонстрируем силу и надежность модели посредством тщательной оценки по ряду наборов данных, от смоделированных многообъектных сред до богатых реальных сцен в помещениях и на открытом воздухе, показывая, что она обеспечивает самые современные результаты с точки зрения качества и разнообразия изображений. наслаждаясь быстрым обучением и большей эффективностью данных. Дальнейшие качественные и количественные эксперименты предлагают нам понимание внутренней работы модели, выявляя улучшенную интерпретируемость и более сильную распутанность, а также демонстрируя преимущества и эффективность нашего подхода. Реализация модели доступна по адресу «https://github.com/dorarad/gansformer..