В последние годы наблюдается быстрое развитие генеративно-состязательных сетей. Однако успех моделей GAN зависит от большого количества обучающих данных. Давайте рассмотрим стратегию регуляризации для обучения надежных моделей GAN на разреженных данных. Прежде чем начать, позвольте мне дать краткое введение в GAN.

Что такое Генеративный?

По сути, генеративная модель означает, что вы нанесли на карту распределение вероятностей самих данных. В случае изображений это означает, что есть шанс для каждой возможной комбинации значений пикселей. Это также означает, что новые точки данных могут быть созданы путем выборки из этого распределения (т.е. выбора комбинаций с большой вероятностью). Если вы работаете в области компьютерного зрения, это означает, что ваша модель может генерировать новые изображения с нуля. Вот пример сгенерированного лица.

Любопытно увидеть людей, которые были сгенерированы GAN? Проверьте это! https://www.thispersondoesnotexist.com/

Первоначальная статья Яна Гудфеллоу и др.. изложил основной подход, заложил теоретическую основу и предоставил несколько примеров эталонных показателей. GAN не изобрели генеративные модели, а предоставили интересный и удобный способ их изучения. Они называются «состязательными», потому что задача построена таким образом, что две сущности конкурируют друг с другом, и обе эти сущности являются моделями машинного обучения.

GAN состоит из двух компонентов: генератора и дискриминатора. Как правило, это разные нейронные сети. Генератор учится генерировать поддельные изображения, которые выглядят реальными, чтобы обмануть дискриминатор. Дискриминатор учится отличать настоящее от подделки.

«Генератор можно сравнить с фальсификатором, а дискриминатор — с исследователем».

В результате генератор создает максимально реалистичные поддельные изображения. Он делает это в надежде обмануть дискриминатора. Дискриминатор проверяет кучу как реальных, так и поддельных изображений, сгенерированных генератором, и пытается определить, какие из них настоящие, а какие поддельные.

Предположим, вы хотите создать генератор изображений лиц. Вы начинаете с подачи системе множества случайных чисел, которые она затем складывает, умножает и применяет причудливые функции. Наконец, он выводит значение яркости для каждого пикселя. Это ваша генеративная модель; вы подаете ему шум, и он производит данные. Допустим, вы делаете это десять раз и получаете десять разных поддельных изображений.

Затем вы собираете 10 изображений лиц реальных людей. Поддельные и настоящие изображения затем передаются в другую модель, называемую Дискриминатором. Его задача состоит в том, чтобы генерировать число для каждого входного изображения, указывающее вероятность того, что изображение является реальным. Сгенерированные сэмплы сначала представляют собой просто шум, поэтому вы можете подумать, что это будет просто, но Дискриминатор так же плох, потому что он еще ничему не научился.

Дискриминатор наказывается, а Генератор вознаграждается за каждую ошибку на поддельном изображении. Дискриминатор также наказывается или вознаграждается за правильную классификацию реальных изображений. Вот почему их называют состязательными: проигрыш Дискриминатора — это выигрыш Генератора.

Соревнование приводит к взаимному улучшению с течением времени. Наконец, термин «сети» используется потому, что авторы моделируют Генератор и Дискриминатор с помощью нейронной сети. NN предоставляет простую основу для использования штрафов/поощрений для изменения сетевых параметров, чтобы они обучались: хорошо известное обратное распространение.

Уравнение оптимизации GAN

Были предложены различные противоборствующие потери для стабилизации обучения или улучшения сходимости моделей GAN, в основном на основе идеи минимизации f-дивергенции(функции Df, которая измеряет разницу между двумя распределения вероятностей P и Q) между реальными и сгенерированными распределениями данных.

Например, Гудфеллоу и др. предложить насыщенную потерю, которая минимизирует JS-расхождение между двумя распределениями. Точно так же формулировка LSGAN приводит к минимизации расхождения χ 2 , а подход EBGAN оптимизирует общее расстояние вариации. С другой стороны, некоторые модели предназначены для минимизации показателей интегральной вероятности (IPM), например, структуры WGAN.

Здесь мы увидим новую схему регуляризации, которую можно применять к различным функциям потерь GAN для обучения моделей GAN на ограниченных данных.

Изучение GAN на ограниченных обучающих данных:

Несколько исследований, направленных на сокращение усилий по сбору данных, вызывают обеспокоенность по поводу недостаточности данных для обучения моделей GAN. Обучение моделей GAN на ограниченных данных затруднено, поскольку нехватка данных вызывает такие проблемы, как нестабильная динамика обучения, снижение точности сгенерированных изображений и запоминание обучающих примеров.

Чтобы решить эти проблемы, в последних методах используется увеличение данных для увеличения разнообразия данных, предотвращая переоснащение моделей GAN обучающими данными.

Регуляризация сетей GAN.

Что такое регуляризация в нейронных сетях?

набор приемов предотвращения переобучения в нейронных сетях и, как следствие, повышения точности модели глубокого обучения при столкновении с совершенно новыми данными из предметной области

Большинство существующих методов регуляризации для моделей GAN направлены на достижение двух целей:

1) стабилизация обучения для обеспечения конвергенции

2) устранение проблемы со свертыванием режима.

Как уже говорилось, модель GAN состоит из дискриминатора D и генератора G. Пусть VD и LG обозначают цели обучения дискриминатора D и генератора G соответственно. Обучение фреймворков GAN можно в целом проиллюстрировать следующим образом:

max D VD, VD = E x~T fD(D(x)) + E z~pz fG(D(G(z))) (1)

min G LG, LG = E z~pz gG(D(G(z))) , (2)

где pz — предварительное распределение (например, N (0, I)) и T — обучающий (наблюдаемый) набор изображений, используемый для аппроксимации распределения данных. Обозначения fD, fG и gG в уравнении. (2) представляют функции отображения, из которых могут быть получены различные потери в GAN.

Метод регуляризации с ограниченными данными:

Новый метод регуляризации, разработанный командой Хун-Ю Цзэн, Лу Цзян, Се Лю, Мин-Сюань Ян и Вейлонг Ян, утверждает, что на этапе обучения GAN мы можем использовать переменные экспоненциального скользящего среднего, называемые якорями, отслеживать предсказания дискриминатора. Затем якоря используются для вычисления регуляризованных потерь дискриминатора, чтобы повысить эффективность обобщения моделей GAN.

Основная идея состоит в том, чтобы регулировать предсказания дискриминатора на этапе обучения. В частности, путем введения двух экспоненциальных переменных скользящего среднего αR и αF, называемых якорями, для отслеживания предсказаний дискриминатора реальных и сгенерированных изображений.

мин. D LD, LD = −VD + λRLC(D),

где RLC — предлагаемый член регуляризации: RLC = E x~T kD(x)−αF k 2 + E z~pz kD(G(z))−αRk 2

Почему скользящие средние?

Следование скользящему среднему значению прогноза уменьшает дисперсию между мини-пакетами и стабилизирует описанный срок регуляризации. Интуитивно скользящее среднее стабилизируется, в то время как предсказание дискриминатора постепенно приближается к стационарной точке.

Подключение к LeCam Divergence:

к модели WGAN была применена новая регуляризация f-дивергенции, называемая дивергенцией LeCam (LC) или треугольной дискриминацией. Метод регуляризации использовал WGAN для уменьшения взвешенной LC-дивергенции. Используя это, мы можем сказать, что LC-дивергенция:

  1. Может использоваться для обучения моделей GAN с ограниченными обучающими данными.
  2. Имеет тесную связь с f-дивергенциями, используемыми в других моделях GAN.

Различные результаты экспериментов по применению метода регуляризации Лекама к нескольким наборам данных/GANS/SOTA.

Вывод:

В этой статье мы узнали о GAN и методе регуляризации для обучения моделей GAN с ограниченными данными. Налагая потери регуляризации на дискриминатор на этапе обучения, этот метод достигает более надежной цели обучения для моделей GAN. Эффективность предложенного метода заключается в том, что мы можем улучшить производительность моделей GAN, особенно в условиях ограниченных данных, и что его можно использовать в сочетании с методами увеличения данных для дальнейшего повышения производительности.

Использованная литература: