Мыслить глобально действовать локально

Как Alibaba меняет мир генеративно-состязательных сетей с помощью улучшенной локализованной модели

Эта статья является частью серии Academic Alibaba и взята из статьи под названием Глобальные и локализованные генеративно-состязательные сети, написанной Guo-Jun Qi, Liheng Zhang, Hao Hu, Marzieh Edraki. , Jingdong Wang и Xian-Sheng Hua, приняты CVPR 2018. Полный текст статьи можно прочитать здесь.

Мало кто будет оспаривать утверждение о том, что разработка генеративно-состязательных сетей (GAN) представляет собой одно из самых значительных и многообещающих достижений в области искусственного интеллекта и глубокого обучения за последние годы.

Оригинальная модель Гудфеллоу, состоящая из двух нейронных сетей — генератора и дискриминатора, противопоставляет их друг другу. Создавая поддельные, но реалистичные образцы данных, которые почти неотличимы от их реальных аналогов, генератор пытается обмануть дискриминатор. Дискриминатор сравнивает образцы с реальным набором данных и учится различать подлинные и недостоверные. Этот цикл повторяется, при этом генератор постоянно улучшает качество генерируемых им данных, а дискриминатор обучается и соответствующим образом меняет свое поведение. Образцы, произведенные генератором, образуют коллектор.

Но модель GAN Гудфеллоу не лишена недостатков, наиболее заметным из которых является использование карты глобальных координат для параметризации генерируемых ею данных. Карты глобальных координат неадекватны по нескольким направлениям. Например, структурно несходные объекты, такие как человеческое тело и транспортное средство, имеют различную геометрическую структуру и не подходят для единой глобальной карты координат. Кроме того, точки на многообразии не могут быть напрямую сопоставлены с их глобальными координатами, а многообразие, созданное глобальной GAN, может схлопываться локально.

Теперь группа исследователей из Лаборатории машинного восприятия и обучения (MAPLE) Университета Центральной Флориды и техническая команда Alibaba разработали решение, основанное на модели GAN и включающее локальную пространственную информацию.

От ГАН к ЛГАН

В документе исследовательская группа предлагает локализованную генеративно-состязательную сеть (LGAN) в качестве решения ограничений стандартной глобальной GAN. LGAN — это локальная парадигма, использующая карты локальных координат, центрированные в разных точках данных, для формирования многообразия как набора локальных генераторов. При этом он параметризует локальные преобразования геометрических данных в разных местах коллектора. Это различие между локальной и глобальной системами координат приводит к концептуальным и алгоритмическим различиям между моделями LGAN и GAN.

LGAN имеет два основных преимущества. Во-первых, локальная природа LGAN позволяет ему напрямую обращаться к локальной геометрии без необходимости инвертировать генератор в стандартной GAN для доступа к его глобальным координатам. Как показано на следующем рисунке, локальные генераторы расположены в разных точках данных, поэтому данные, генерируемые разными локальными генераторами, можно объединить вместе, чтобы охватить весь коллектор.

Кроме того, предварительно наложив ортонормированность на локальные касательные, мы можем предотвратить локальное коллапсирование многообразия, поскольку результирующий ортонормированный базис охватывает полномерное касательное пространство.

LGAN применяется к портретным фотографиям

На следующем рисунке показаны лица, сгенерированные LGAN, с красным прямоугольником посередине, представляющим исходное изображение. Результаты доказывают, что LGAN способен генерировать четкие, похожие на человеческие лица с вариациями выражений лица, бород, цвета кожи, причесок и поз.

Примечательно также, что на рисунке слева ЛГАН трансформирует женское лицо в первом и шестом рядах в мужское. Точно так же на рисунке справа мужские лица в четвертом и пятом рядах стали более женственными. Это демонстрирует, что локальные генераторы не только манипулируют атрибутами изображений, но также могут экстраполировать эти входные данные для получения совершенно разных выходных данных.

Резюме

Результаты наших экспериментов доказывают, что LGAN, представленная в этой статье, не только производит разнообразный набор генераций и преобразований изображений, но также обеспечивает лучшую производительность классификации, чем другие модели.

Полностью статью можно прочитать здесь.

Алибаба Тех

Подробная и исчерпывающая информация из первых рук о новейших технологиях Alibaba → Найдите «Alibaba Tech» на Facebook.

Мыслить глобально действовать локально

От ГАН к ЛГАН

LGAN применяется к портретным фотографиям

Резюме

Алибаба Тех

Вопросы по теме