Оценка качества генеративно-состязательных сетей (Часть II)

Подход

В этом разделе мы обсудим процедуру, используемую для оценки изображений, созданных GAN, с использованием метрики качества без ссылок. Проект можно разделить на 5 шагов:

Обзор доступных GAN. Прежде всего, мы начнем с обзора наиболее важных GAN, которые приобрели наибольшую популярность за последние 5 лет. Двадцать семь GAN были проверены на основе их типа, используемого набора данных и года их публикации.
Выбор GAN для генерации изображений. Прежде чем приступить к созданию изображений, нам сначала нужно выбрать доступные GAN, из 27 рассмотренных GAN мы выбираем 6 GAN на основе типов GAN. Выбор был сделан с учетом того, чтобы взять хотя бы одну GAN из каждого типа GAN. Мы выбрали DcGAN, WGAN, BigGAN из генерации одного/множественного класса, SRGAN из типа разрешения, а DiscoGAN и Cycle GAN использовались для внутридоменных и междоменных
Генерация изображений с использованием GAN: после выбора GAN мы использовали 6 наборов данных для запуска этих GAN. При создании изображений мы изменили некоторые гиперпараметры в GAN для получения изображений более высокого качества. В случае DcGAN также был добавлен новый слой свертки-транспонирования для получения более качественных изображений в диапазоне 128X128. Все изображения GAN для всех созданных баз данных имели размер 128X 128, чтобы сохранить их равенство.
Оценка поддельных изображений с помощью NR-IQA. Поддельные изображения, сгенерированные разными GAN, затем проходят через три метрики NR-IQA: NIQE, PIQE, BRISQUE. Оценка была рассчитана для всех наборов данных изображений, и даже оценка была рассчитана для 100 самых высоких изображений в наборе данных.
Поиск лучшего NR-IQA: мы анализируем приведенные выше данные, чтобы найти лучшие показатели, которые можно использовать для оценки изображений, созданных GAN.

Результат

Как указано в цели, весь проект разделен на 4 этапа. После завершения первого шага по просмотру и выбору GAN мы создали поддельные изображения с использованием выбранных GAN. Мы использовали Mnist, celeba, stl10 и Lsun на DcGAN, WGAN и SRGAN. Одной из выбранных GAN была BigGAN, обеспечивающая современный результат, но требующая большой вычислительной мощности; из-за ограничений графического процессора мы смогли изучить только небольшой набор данных, то есть mnist, используя этот GAN. Для DiscoGAN и CycleGAN мы использовали набор данных Faade и Maps для преобразования из одного домена в другой. WGAN (рис. 10), DcGAN (рис. 11, 12 и 13), Disco GAN (рис. 14) и CycleGAN (рис. 15).

Результаты оценки качества сгенерированных поддельных изображений с использованием показателей NIQE, BRISQUE и PIQE можно увидеть в таблице на следующей странице. В этой таблице мы можем видеть значения оценки качества для каждого набора данных для всех используемых GAN. Каждая ячейка содержит 2 значения, где левое значение указывает производительность, полученную для всех сгенерированных изображений, а правое — производительность для 100 лучших изображений, выбранных вручную из сгенерированных изображений. Мы также сообщили о значениях оценки качества для исходных наборов данных, использованных для обучения, которые также могут быть полезны для изучения различий в качестве. Следует отметить, что меньшее число указывает на лучшее качество всех используемых метрик.

Из рисунка 16 видно, что значения NIQE для исходного набора данных ниже, чем для всех рассмотренных GAN, кроме SrGAN. Ожидается, что GAN со сверхвысоким разрешением улучшит качество изображения по сравнению с исходным набором данных с низким разрешением. Следует отметить, что мы не можем сравнивать Sr-GAN с другими сетями GAN, поскольку его целью является создание изображения с высоким разрешением, а не создание поддельных изображений. Для четырех наборов данных, включая Mnist, CelebA, Lsun и Stl10, мы видим, что DcGAN работает лучше, чем WGAN, с точки зрения значений NIQE. Что касается двух других наборов данных, включая Facade и Maps, DiscoGAN работает лучше, чем Cycle GAN.

Что касается показателя BRISQUE, как видно из таблицы, результаты нестабильны. Однако, учитывая значения BRISQUE для 100 лучших изображений, наборы данных Mnist, CelebA и Stl10. Это означает, что среди большого количества изображений, созданных DcGAN, есть изображения очень хорошего качества. То же самое можно сделать и для CycleGAN, так как его результаты BRISQUE показывают лучшую производительность, чем DiscoGAN.

Что касается PIQE, мы видим, что WGAN достигает самых низких значений для 4 наборов данных, включая Mnist, CelebA, Stl10 и Lsun. В некоторых случаях можно заметить, что производительность PIQE для WGAN даже меньше (лучше), чем для исходного набора данных. При сравнении DiscoGAN и CycleGAN для фасадов и карт мы видим, что изображения CycleGAN имеют лучшее качество, чем DiscoGAN.

Вывод

В этом отчете оценивалось качество изображения, созданного 6 различными GAN, с использованием трех различных показателей оценки качества изображения без эталона. Эксперименты проводились на шести разных базах данных, показывая, что DcGAN и CycleGAN являются наиболее эффективными GAN, соответственно, в создании поддельных изображений из шума и переводе изображений из одного домена в другой (междоменная адаптация). В этом отчете также были изучены наиболее важные GAN, получившие наибольшую популярность в последние годы. Он включает в себя обзор и классификацию двадцати семи GAN на основе их типа, используемого набора данных и года их публикации.

Как показали результаты, объективная оценка дала нам возможность понять, какая GAN может генерировать более качественные изображения. Однако результаты различных метрик не всегда показывают одинаковое поведение. Поэтому в качестве будущей работы мы проведем субъективный тест, а затем сравним результаты объективных и субъективных оценок, чтобы найти наилучшие метрики без эталонной оценки, которые могут дополнительно помочь выбрать наиболее эффективную GAN.

Оценка качества генеративно-состязательных сетей (Часть II)

Подход

Результат

Вывод

Вопросы по теме