Глубокие сети могут быть чрезвычайно мощными и эффективными при ответе на сложные вопросы. Но также хорошо известно, что для обучения действительно сложной модели вам понадобится много-много данных, которые близко соответствуют полному распределению данных.

Из-за отсутствия реальных данных многие исследователи выбирают увеличение данных как метод увеличения размера данного набора данных. Идея состоит в том, чтобы изменить обучающие примеры таким образом, чтобы сохранить их семантические свойства неизменными. Это непростая задача при работе с человеческими лицами.

Этот метод должен учитывать такие сложные преобразования данных, как поза, освещение и нежесткие деформации, но при этом создавать реалистичные образцы, соответствующие статистике реальных данных.

Итак, давайте посмотрим, как новейшие современные методы решают эту сложную задачу ...

Предыдущие подходы

Генеративные состязательные сети (GAN) продемонстрировали свою эффективность в повышении реалистичности синтетических данных. Принимая смоделированные данные в качестве входных данных, GAN производит образцы, которые кажутся более реалистичными. Однако семантические свойства этих образцов могут быть изменены, даже если потери в параметрах вывода будут наказаны.

Трехмерная морфабильная модель (3DMM) - это наиболее часто используемый метод для представления и синтеза геометрических форм и текстур, и первоначально он был предложен в контексте трехмерных человеческих лиц. Согласно этой модели геометрическая структура и текстура человеческих лиц линейно аппроксимируются как комбинация основных векторов.

Недавно 3DMM-модель была объединена со сверточными нейронными сетями для увеличения объема данных. Однако сгенерированные сэмплы имеют тенденцию быть гладкими и нереалистичными по внешнему виду, как вы можете видеть на рисунке ниже.

Более того, 3DMM генерирует выборки в соответствии с распределением Гаусса, которое редко отражает истинное распределение данных. Например, см. Ниже первые два коэффициента PCA, построенные для реальных лиц и синтезированных лиц 3DMM. Этот разрыв между реальным и синтезированным распределениями может легко привести к недостоверным выборкам.

Современная идея

Слоссберг, Шамай и Киммел из Техниона - Израильского технологического института предлагают новый реалистичный подход к синтезу данных для человеческих лиц, комбинируя модели GAN и 3DMM.

В частности, исследователи используют GAN для имитации пространства параметризованных человеческих текстур и создания соответствующей геометрии лица, изучая лучшие коэффициенты 3DMM для каждой текстуры. Сгенерированные текстуры снова отображаются на соответствующие геометрические фигуры для получения новых сгенерированных трехмерных лиц с высоким разрешением.

Такой подход создает реалистичные образцы, и он:

  • не страдает от косвенного контроля над такими желаемыми атрибутами, как поза и освещение;
  • не ограничивается созданием новых экземпляров существующих людей.

Давайте подробнее рассмотрим их конвейер обработки данных ...

Конвейер обработки данных

Процесс включает в себя выравнивание 3D-сканов вершин человеческих лиц по отношению к вершинам и отображение их текстур на 2D-плоскость с использованием предопределенного универсального преобразования.

Конвейер подготовки данных состоит из четырех основных этапов:

  • Сбор данных: исследователи собрали около 5000 сканированных изображений самых разных этнических, гендерных и возрастных групп; Каждого испытуемого попросили выполнить пять различных выражений, включая нейтральное.
  • Аннотация наземных ориентиров: 43 ориентира были добавлены к сеткам в полуавтоматическом режиме путем визуализации лица и использования предварительно обученного детектора лицевых ориентиров на 2D-изображениях.
  • Выравнивание сетки: это было выполнено путем деформации сетки лица шаблона в соответствии с геометрической структурой каждого сканирования, руководствуясь ранее полученными точками лицевых ориентиров.
  • Перенос текстуры: текстура передается со скана в шаблон с помощью метода преобразования лучей, встроенного в панель инструментов визуализации анимации Blender; затем текстура отображается из шаблона в 2D-плоскость с использованием предопределенного универсального сопоставления.

См. Получившиеся сопоставленные текстуры ниже:

Следующий шаг - обучить GAN изучать и имитировать эти выровненные текстуры лица. Для этого исследователи используют прогрессивно растущую GAN с генератором и дискриминатором, построенными в виде симметричных сетей. В этой реализации генератор постепенно увеличивает разрешение карт признаков до достижения размера выходного изображения, в то время как дискриминатор постепенно уменьшает размер до единственного выхода.

См. Ниже новые синтетические текстуры лица, созданные вышеупомянутым GAN:

Последний шаг - синтезировать геометрию лиц. Исследователи изучили несколько подходов к поиску вероятных геометрических коэффициентов для данной текстуры. Вы можете наблюдать качественное и количественное (L2 геометрическая ошибка) сравнение различных методов на следующем рисунке:

Очевидно, что метод наименьших квадратов дает самые низкие результаты искажений. Учитывая также его простоту, этот метод был выбран для всех последующих экспериментов.

Результаты экспериментов

Предлагаемый метод может генерировать множество новых идентичностей, и каждая из них может быть визуализирована в различной позе, выражении и освещении. Различные выражения добавляются к нейтральной геометрии с помощью модели Blend Shapes. Полученные изображения с разной позой и освещением показаны ниже:

Для количественной оценки результатов исследователи использовали срезанное расстояние Вассерштейна (SWD) для измерения расстояний между распределениями их обучения и сгенерированных изображений в различных масштабах:

Таблица демонстрирует, что текстуры, созданные предлагаемой моделью, статистически ближе к реальным данным, чем текстуры, созданные 3DMM.

Следующий эксперимент был разработан, чтобы оценить, способна ли предложенная модель генерировать выборки, которые значительно отличаются от исходной обучающей выборки и напоминают ранее невидимые данные. Таким образом, 5% удостоверений были выставлены на оценку. Исследователи измерили расстояние L2 между каждым реальным идентификатором от тестового набора до ближайшего идентификатора, сгенерированного GAN, а также до ближайшего реального идентификатора из обучающего набора.

Как видно из рисунка, идентификаторы тестового набора ближе к сгенерированным идентификаторам, чем идентификаторы обучающего набора. Более того, расстояние «от проверки до подделки» не намного больше, чем от расстояния от «от подделки до реального». Это означает, что сгенерированные образцы не только создают идентификаторы, очень близкие к обучающему набору, но и новые идентификаторы, которые напоминают ранее невидимые примеры.

Наконец, была проведена качественная оценка, чтобы проверить, может ли предлагаемый конвейер генерировать исходные образцы данных. Таким образом, текстуры лица, сгенерированные моделью, сравнивались с их ближайшими реальными соседями относительно нормы L2 между дескрипторами идентичности.

Как видите, ближайшие настоящие текстуры расположены достаточно далеко, чтобы их можно было визуально различить как разных людей, что подтверждает способность модели создавать новые идентичности.

Нижняя линия

Предлагаемая модель, вероятно, первая, реалистично синтезирующая как текстуру, так и геометрию человеческих лиц. Это может быть полезно для обучения моделированию распознавания лиц, распознаванию лиц или реконструкции лиц. Кроме того, его можно применять в тех случаях, когда требуется много разных реалистичных лиц, например, в киноиндустрии или компьютерных играх. Более того, эта структура не ограничивается синтезом человеческих лиц, но может применяться к другим классам объектов, где возможно выравнивание данных.

Первоначально опубликовано на сайте neurohive.io 3 сентября 2018 г.