Современные генеративно-состязательные сети (GAN) демонстрируют замечательную эффективность при моделировании распределения изображений и находят применение в широком спектре задач компьютерного зрения: улучшение изображений, редактирование, трансляция изображения в изображение и т. д. GAN состоят из двух нейронные сети — генератор и дискриминатор — настроены так, чтобы действовать друг против друга. Первый генерирует новые образцы на основе обучающего набора, а второй пытается отличить подделку. Во время обучения общая целевая функция минимизируется генератором и максимизируется дискриминатором. Эта состязательная игра позволяет генератору лучше подделывать образцы до такой степени, что в конце обучения они становятся неотличимы от реальных образцов.

Обучение современных ГАН требует десятков или даже сотен тысяч выборок. Это ограничивает его применимость только областями, которые представлены большим набором изображений. Основным подходом, позволяющим обойти это ограничение, является трансферное обучение (TL), то есть точная настройка генеративной модели для области с небольшим количеством выборок, начиная с предварительно обученной исходной модели.

Стандартный подход методов GAN TL заключается в тонкой настройке практически всех весов предварительно обученной модели. Это может быть целесообразно в случае, когда целевой домен очень далек от исходного, например, когда генератор, предварительно обученный на человеческих лицах, адаптируется к домену животных или зданий. Однако существует широкий спектр случаев, когда расстояние между доменами данных невелико. Зачастую целевые домены похожи на исходные и отличаются в основном текстурой, стилем, геометрией, сохраняя при этом одинаковый контент, например лица или сцены на природе. В таких случаях кажется излишним точная настройка всех весов генератора источника.

Этот факт побудил Дмитрия Ветрова и его коллег из ВШЭ, МФТИ и АИРИ найти более эффективное и компактное пространство параметров для доменной адаптации GAN. Их идея состоит в том, чтобы оптимизировать для каждого целевого домена только один вектор, который называется вектором домена. Этот вектор может быть включен в архитектуру посредством операции модуляции на каждом уровне свертки. Применение этой параметризации к модели StyleGAN2 позволило ученым уменьшить размерность вектора с 30 миллионов до 6 тысяч, что в 5 тысяч раз меньше исходного пространства весов. Они показали количественно и качественно, что новый подход может достичь того же качества, что и оптимизация всех весов StyleGAN2.

Если обучается только такой вектор домена, домен генерируемых изображений меняется так же, как если бы мы обучали все параметры нейронной сети. Это резко сокращает количество оптимизируемых параметров, поскольку размерность такого вектора домена составляет всего 6000, что на порядки меньше 30 миллионов весов нашего генератора. Это также позволило нам предложить модель HyperDomainNet, которая предсказывает такой вектор только на основе описания целевого домена.

Айбек Аланов, аспирант НИУ ВШЭ, научный сотрудник группы вероятностного обучения AIRI, соавтор работы

Столь значительное сокращение позволило решить проблему мультидоменной адаптации GAN, т.е. когда одна и та же модель может адаптироваться к нескольким доменам в зависимости от входного запроса. Обычно эта проблема решается предыдущими методами, просто путем тонкой настройки отдельных генераторов для каждого целевого домена независимо. Напротив, авторы предлагают обучать гиперсеть, которая прогнозирует вектор для StyleGAN2 в зависимости от целевого домена. Они назвали эту сеть HyperDomainNet. Непосредственные преимущества многодоменной структуры заключаются в сокращении времени обучения и количества обучаемых параметров, поскольку вместо точной настройки n отдельных генераторов обучается одна HyperDomainNet для одновременной адаптации к n доменам. Еще одним преимуществом этого метода является то, что он может обобщаться на невидимые домены (т. е. те, которые не были представлены при обучении), если n достаточно велико. Авторы эмпирически показывают этот эффект.

Более подробную информацию можно найти в статье, опубликованной в Трудах конференции NeurIPS 2022.