Студентка магистратуры Сеульского национального университета и разработчик обучила модель, генерирующую лица, для преобразования обычных фотографий лица в мультяшные изображения в характерном стиле Ли Маль-нён.

Студент (имя пользователя GitHub: bryandlee) использовал изображения веб-комиксов южнокорейского мультипликатора Ли Маль-нён (이말년) в качестве входных данных, создав набор данных мультяшных лиц малнюн, а затем протестировав на нем популярные модели глубокой генерации. Объединив предварительно обученную модель генерации лиц со специальными методами обучения, они смогли обучить генератор с разрешением 256x256 всего за 10 часов на одном графическом процессоре RTX 2080ti, используя всего 500 изображений, аннотированных вручную.

Поскольку каскадный классификатор человеческих лиц, представленный в OpenCV — библиотеке программных функций, в основном предназначенных для компьютерного зрения в реальном времени, — плохо работал в мультипликационном домене, студент вручную аннотировал 500 введенных изображений мультипликационных лиц.

Студент внедрил FreezeD, простую, но эффективную основу для передачи обучения GAN, предложенную ранее в этом году исследователями KAIST (Корейский передовой институт науки и технологий) и POSTECH (Университет науки и технологий Пхохана), чтобы уменьшить нагрузку на тяжелые данные. и вычислительные ресурсы при обучении GAN. Разработчик протестировал идею замораживания ранних слоев генератора в настройках переноса обучения на предложенном FreezeG (замораживающем генераторе) и обнаружил, что это работает довольно хорошо.

Например, при создании генератора на основе модели StyleGAN2, обученной на наборе данных FFHQ, потребовалось всего около 10 часов для точной настройки предварительно обученной модели, прежде чем она научилась успешно генерировать реалистичные мультяшные изображения.

Получив многообещающие результаты от мультяшных лиц malnyun, FreezeG был дополнительно протестирован на других наборах данных с большими геометрическими преобразованиями, такими как face2simpsons. Однако здесь связь между исходными изображениями и сгенерированными изображениями стала менее очевидной.

Студент также экспериментировал с U-GAT-IT, методом перевода изображения в изображение, который добился больших успехов в задаче face2anime, путем присоединения вывода StyleGAN2, обученного FFHQ, к обученной модели U-GAT-IT. исследовать изученное пространство. Хотя модель StyleGAN2 была обучена в основном на лицах европеоидов, а модель U-GAT-IT — на лицах азиатов, в сочетании они дали приемлемые результаты.

Студент-разработчик отметил, что предлагаемый метод обучения на самом деле является методом псевдотрансляции, потому что входное изображение должно быть спроецировано в изученное скрытое пространство, прежде чем спроецированный вектор будет снова распространен для создания целевого изображения. Следовательно, это ограничивает производительность изображениями в домене оригинальной GAN.

Код FreezeG есть на GitHub, а подробная информация о том, как bryandlee обучила генератор, — на странице проекта malnyun_faces GitHub.

Корреспондент: Юань Юань | Редактор: Майкл Саразен

Синхронизированный отчет | Обзор китайских решений искусственного интеллекта в ответ на пандемию COVID-19 — 87 тематических исследований от более чем 700 поставщиков ИИ

В этом отчете предлагается взглянуть на то, как Китай использует технологии искусственного интеллекта в борьбе с COVID-19. Он также доступен на Amazon Kindle. Вместе с этим отчетом мы также представили базу данных, охватывающую дополнительные 1428 решений искусственного интеллекта для 12 сценариев пандемии.

Нажмите здесь, чтобы найти больше отчетов от нас.

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly», чтобы получать еженедельные обновления AI.