Аннотация. Генеративно-состязательные сети (GAN) были горячей темой в сообществе машинного обучения с момента их представления Яном Гудфеллоу и его коллегами в 2014 году. GAN — это тип модели глубокого обучения, которая может генерировать реалистичные данные, такие как изображения или текст, путем обучения сети генератора создавать образцы, неотличимые от реальных данных. В этом документе Иэн Гудфеллоу проводит критический анализ GAN, уделяя особое внимание тенденциям, их сильным и слабым сторонам, а также потенциальным приложениям.

ВВЕДЕНИЕ
В исследовательской статье Гудфеллоу под названием «Generative Adversarial Networks» объясняется концепция GAN и то, как они могут генерировать новые данные из существующих данных. В нем содержится подробное описание архитектуры GAN, способов их обучения и того, как их можно использовать для различных приложений. Статья хорошо составлена ​​с четким акцентом на установлении математической обоснованности метода GAN и демонстрации того, что он не склонен к ошибочным результатам. Он представил новый подход к обучению генеративных моделей с использованием состязательного процесса, включающий одновременное обучение двух моделей, генератора (G) и дискриминатора (D), где генератор создает поддельные выборки данных, а дискриминатор различает настоящие и поддельные данные. Дискриминатор обучен классифицировать данные как настоящие или поддельные, подобно тому, как работает классификатор изображений.

ТЕНДЕНЦИИ, ИДЕИ И ПРОБЛЕМЫ ПО ТЕМЕ
С момента публикации статьи тема GAN продолжает оставаться активной областью исследований, и появляется много новых разработок и тенденций.

В здравоохранении GAN улучшают показатели недостаточно представленных классов в классификации рентгенографии грудной клетки, как показано в исследовании Sundaram et al., проведенном в 2021 году [1]. Основная идея этой опубликованной работы заключается в устранении дисбаланса классов и повышении производительности моделей глубокого обучения в небольших несбалансированных наборах данных. В исследовании сравнивалась эффективность увеличения данных на основе GAN с традиционными методами увеличения данных на наборе данных рентгеновских изображений грудной клетки со значительным дисбалансом классов между нормальными и аномальными случаями [1]. Авторы обучили и оценили различные модели глубокого обучения, включая сверточную нейронную сеть (CNN) и предварительно обученную модель, с увеличением данных и без него. Метод увеличения данных на основе GAN генерировал синтетические изображения путем обучения сети генератора изучению основного распределения обучающего набора и созданию новых изображений, похожих на исходные.

Результаты показали, что дополнение данных на основе GAN превзошло традиционные методы дополнения данных в повышении точности классификации для недостаточно представленных классов. Исследование также показало, что улучшение производительности было более значительным для небольших наборов данных со значительным дисбалансом классов.

В своей работе Сундарам применил технику Гудфеллоу специально к области медицинской визуализации, где размеченных данных часто мало и они дороги. Исследование Сундарама было сосредоточено на проблеме дисбаланса классов в наборах данных медицинских изображений, что может привести к предвзятым моделям и низкой производительности для недостаточно представленных классов. Напротив, в статье Гудфеллоу этот вопрос не затрагивался. В исследовании Сундарама также оценивалась производительность расширения данных на основе GAN на реальном наборе данных рентгеновских изображений грудной клетки, а в статье Гудфеллоу оценивались GAN на синтетических наборах данных.

Хотя эта работа по расширению данных на основе GAN для классификации рентгенографии грудной клетки является многообещающим подходом для повышения производительности моделей глубокого обучения в задачах классификации медицинских изображений, все еще остаются некоторые проблемы и ограничения. Производительность увеличения данных на основе GAN зависит от качества синтетических изображений, созданных моделью GAN, его влияние на большие наборы данных с более сбалансированным распределением классов менее очевидно, производительность увеличения данных на основе GAN чувствительна к выбору гиперпараметры, такие как скорость обучения, размер партии и количество эпох.

Исследователи из Университета Нью-Гэмпшира продемонстрировали преимущества использования GAN для увеличения данных в нейровизуализации. Они показали, что увеличение данных на основе GAN особенно полезно для функциональной спектроскопии ближнего инфракрасного диапазона (fNIRS), метода нейровизуализации, используемого для картирования функционирующей коры головного мозга человека. Поскольку fNIRS также используется в интерфейсах мозг-компьютер, обучение классификации глубокого обучения требует большого количества новых данных. В своем исследовании Викрамаратне и Махмуд использовали условные генеративно-состязательные сети (CGAN) с классификатором CNN, который достиг точности классификации задач 96,67% в 2021 году. Это подчеркивает потенциал GAN для улучшения анализа данных нейровизуализации и точности классификации. [2]

По сравнению с оригинальными GAN, предложенными Яном Гудфеллоу, некоторые отличия заключаются в следующем: предлагаемый метод использует условный GAN (cGAN) для генерации синтетических данных, что означает, что сеть генератора принимает в качестве входных данных не только случайный шум, но и некоторую обусловливающую информацию, которая позволяет это сделать. для создания образцов более целенаправленным образом. Предлагаемый метод адаптирован для применения классификации данных fNIRS, которая имеет свои специфические проблемы и требования, такие как работа с зашумленными и многомерными данными. В статье предлагается набор показателей оценки, специально предназначенных для оценки качества сгенерированных синтетических данных и их влияния на производительность классификатора задач.

Тем не менее, остаются некоторые проблемы, такие как необходимость большого количества исходных данных fNIRS для обучения cGAN для создания выборок синтетических данных, что может занять много времени и средств. Данные могут привести к переоснащению, если они недостаточно разнообразны, а обобщаемость для других задач или наборов данных еще не ясна, для этого требуется несколько нейронных сетей и настройка нескольких гиперпараметров.

Кроме того, GAN улучшения речи (SEGAN) можно использовать для улучшения качества шумных входных сигналов, что особенно важно для людей с нарушениями речи. Эта технология может улучшить качество их жизни. Недавно Huy Phan и соавт. предложил новый подход, использующий несколько генераторов, объединенных в цепочку, для выполнения многоэтапного улучшения. Они разработали две новые модели, ISEGAN и DSEGAN, которые, согласно их исследованиям, превзошли SEGAN. Эти достижения в улучшении речи на основе GAN могут значительно повысить точность и эффективность систем ASR. [3]

Этот документ основан на оригинальных GAN, предложенных Гудфеллоу, путем введения нескольких ключевых улучшений, специально предназначенных для улучшения речи. В то время как исходные GAN используют простую нейронную сеть в качестве дискриминатора, Хай Фан предлагает модифицированную архитектуру дискриминатора, которая учитывает временную структуру речевых сигналов. Эта архитектура использует одномерные свертки с расширенными ядрами для захвата долгосрочных зависимостей в речевых сигналах.

Хай Фан предлагает использовать потерю совпадения признаков в дополнение к потерям состязательности, что побуждает генератор сопоставлять статистику представлений промежуточных признаков реальных и сгенерированных речевых сигналов. Это помогает генератору создавать речевые сигналы, которые не только визуально похожи на реальную речь, но и имеют схожие базовые характеристики. Он также предлагает использовать потерю восприятия, основанную на предварительно обученной модели распознавания речи. Эта потеря побуждает генератор производить речевые сигналы, которые не только визуально похожи на реальную речь, но и имеют аналогичное фонетическое содержание, что важно для улучшения речи.

Несмотря на то, что в нем есть некоторые важные улучшения, все еще остаются некоторые проблемы, такие как предложения по использованию методов увеличения данных, таких как растяжение времени и сдвиг высоты тона, для увеличения разнообразия обучающих данных. В будущей работе могут быть изучены более продвинутые методы увеличения данных или собраны более разнообразные обучающие данные, предлагаемый метод не оптимизирован для обработки в реальном времени, что ограничивает его применимость в реальных сценариях, предлагается использовать несколько функций потерь, балансировка этих функций потерь может быть сложным, а неправильное взвешивание функций потерь может привести к нестабильному обучению или неоптимальным результатам.

САМАЯ ИНТЕРЕСНАЯ ПРОБЛЕМА
Одной из интересных нерешенных проблем среди этих трех тем является расширение данных на основе GAN для классификации рентгенограмм грудной клетки от Sundaram. Однако в этой области есть несколько нерешенных проблем, в том числе ограниченное разнообразие, поскольку сгенерированные изображения могут не отражать весь диапазон изменчивости реальных рентгеновских изображений, а также использование ограниченного набора обучающие данные для обучения GAN могут привести к систематической ошибке или переобучению. Производительность метода увеличения данных на основе GAN может быть трудно оценить, поскольку в настоящее время не существует общепринятых показателей оценки для синтетических медицинских изображений. Кроме того, эффективность увеличения данных на основе GAN может варьироваться в зависимости от задач медицинской визуализации, и неясно, насколько хорошо этот метод будет применим к другим задачам, помимо классификации рентгенографии грудной клетки.

ЗАКЛЮЧЕНИЕ
В заключение, GAN — это мощная модель глубокого обучения, которая может генерировать очень реалистичные и разнообразные данные. У GAN есть несколько сильных сторон, в том числе их гибкость в обучении и способность генерировать широкий спектр типов данных. Однако у GAN также есть несколько недостатков, в том числе их нестабильность во время обучения и склонность генерировать необъективные или неполные данные. Несмотря на эти проблемы, у GAN есть несколько многообещающих приложений в различных областях, и их развитие, вероятно, продолжится в будущем.

Если вы новичок во всем этом, я предлагаю посмотреть это невероятное видео Янника Килчера, где он объясняет фундаментальную статью о GAN:

ССЫЛКИ
[1] Фан, Хай. «Улучшение GAN для улучшения речи». Препринт arXiv arXiv: 2107.02970 (2021 г.).

[2] Викрамаратне, С. Д., Махмуд, С. Увеличение данных на основе условной GAN для улучшения классификатора задач глубокого обучения с использованием данных fNIRS https://www.frontiersin.org/articles/10.3389/fdata.2021.659 146/full (2021.)

[3] Фан, Х., Маклафлин, И.В., Фам, Л., Чен, О.Ю., Кох, П., Де Вос, М., и Мертинс, А. (2018). «Улучшение GAN для улучшения речи». Препринт arXiv arXiv: 1812.00231.

[4] Гудфеллоу И. Дж., Пуже-Абади Дж., Мирза М., Сюй Б., Вард-Фарли Д., Озаир С., Курвиль А. и Бенжио Ю. (2014). «Генеративно-состязательные сети». В Достижениях в области нейронных систем обработки информации (стр. 2672–2680).

[5] Рокка, Дж. (2019). «Понимание генеративно-состязательных сетей (GAN): построение, шаг за шагом, рассуждений, ведущих к GAN».