Минимаксная игра и ее обобщаемость на другие области

Генеративно-состязательная сеть (GAN) была очень активной областью исследований в сообществе глубокого обучения. Хотя было несколько архитектур, предлагающих мелочи по сравнению с существующими фреймворками, суть этой идеи — игры Adversarial — осталась нетронутой. Вы найдете множество статей, объясняющих, как работает GAN, и я бы порекомендовал читателям ознакомиться с некоторыми из них. Вот ссылка для всех любителей Medium: https://medium.com/@jonathan_hui/gan-whats-generative-adversarial-networks-and-its-application-f39ed278ef09

Более интуитивное объяснение: http://blog.kaggle.com/2018/01/18/an-intuitive-introduction-to-generative-adversarial-networks/

Состязательная игра, также называемая минимаксной игрой, является областью теории игр, в которой два или более агента играют в игру друг против друга. Мы можем понять это буквально и представить две машины, играющие в шахматы, го или просто крестики-нолики. Одна машина A действует как атакующая, играя (генерируя) сложные ходы, в то время как машина Bпытается не дать себя одурачить и быть начеку в отношении ходов A. сильный>.

Как и у людей, в этих играх стратегия может быть усилена, а машины могут рассматриваться как сущности, эквивалентные рациональным лицам, принимающим решения.

Цели этих рациональных лиц, принимающих решения, обычно противоречивы. Эти конфликтные игры: игры с нулевой суммой, чаще всего решаются с помощью теоремы минимакса, которая тесно связана с равновесием Нэша. Давайте какое-то время полюбуемся красотой этого жаргона и зададим себе несколько интересных вопросов! Можно ли распространить идею минимаксной игры на другие области и заставить нашу машину A учиться чему-то другому?

IRGAN: Минимаксная игра для объединения генеративной и дискриминационной моделей информационного поиска — вот такая формулировка! Это самая последняя и одна из немногих работ, в которой используются ключевые идеи из формулировки GAN для разработки собственной игры Minimax. Давайте сначала быстро рассмотрим традиционные методы поиска информации (IR), которые прольют свет на мотивацию этой идеи.

В текстовом поиске классическая модель релевантности IR фокусируется на описании того, как (релевантный) документ выбирается из заданной информационной потребности: q → d, где q — запрос (ключевые слова, профиль пользователя и т. д.), d — соответствующий ему документ. документ (текстовые документы, информационные элементы и т. д.). Современная школа мышления в МО переходит к дискриминационному (классификационному) решению, извлеченному из помеченных релевантных уже принятых решений. Он рассматривает документы и запросы вместе как функции и предсказывает их релевантность или метки ранжирования на основе большого количества обучающих данных: q + d → r , где r обозначает релевантность. Учитывая вышеперечисленные две школы мышления, следующим шагом будет использование лучшего из обоих миров, и IRGAN делает то же самое. Без лишних слов давайте приступим к минимаксной игре IRGAN.

Генеративная модель поиска: пытается выбрать релевантные документы из пула кандидатов для заданного запроса q. При этом он также пытается аппроксимировать истинное распределение релевантности по документам.

Дискриминационная модель поиска:пытается как можно точнее отличить релевантные документы от нерелевантных для запроса q. Проще говоря, все, что он делает, — это бинарная классификация!

Общая цель:

Из приведенного выше уравнения мы видим, что оптимальные параметры модели генеративного поиска и модели дискриминационного поиска можно изучить итеративно, максимизируя и минимизируя одну и ту же целевую функцию соответственно.

Чтобы получить оптимальные параметры, целью дискриминатора является максимизация логарифмической вероятности правильного различения истинных и выбранных релевантных документов генератором.

Здесь очень важно отметить, что, в отличие от GAN, целью генеративной модели является прямой выбор известных документов (в пространстве идентификаторов документов), а не их характеристик, потому что здесь работа в IR предполагает выбор соответствующих документов из заданного пула документов.

Поскольку выборка d является дискретной, генератор нельзя оптимизировать напрямую с помощью градиентного спуска, как в исходной формулировке GAN. Распространенным подходом является использование обучения с подкреплением на основе градиента политики (REINFORCE). Эта статья здесь особенно объясняет необходимость предоставления дискретных вознаграждений генератору.

Как дискриминатор и генератор помогают друг другу? В каждую эпоху обучения генератор пытается генерировать выборки, близкие к границе решения дискриминатора, чтобы запутать его обучение в следующем раунде (машина A атакует машину B в игре), в то время как дискриминатор пытается оценить сгенерированные выборки. Поскольку существуют положительные корреляции между положительными, но ненаблюдаемыми (истинно положительными) выборками и частью наблюдаемых положительных выборок, генератор должен научиться выдвигать вверх эти положительные, но ненаблюдаемые выборки быстрее, чем другие выборки с низкой релевантностью.

Чтобы лучше понять этот процесс, посмотрите на иллюстрацию, представленную на рисунке выше. Даже если генератор не может идеально соответствовать условному распределению данных, все же может существовать динамическое равновесие, которое достигается, когда распределение положительных и отрицательных ненаблюдаемых мыл становится стабильным на разных глубинах воды. Поскольку ненаблюдаемые положительные мыла связаны с наблюдаемыми положительными мылами, остающимися на поверхности воды, в целом они должны иметь возможность достигать более высоких позиций, чем (ненаблюдаемые) отрицательные мыла в конце.

Использованная литература:

[1] Ван, Джун и др. «Ирган: минимаксная игра для объединения генеративных и дискриминационных моделей поиска информации». Материалы 40-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска. АКМ, 2017.

Минимаксная игра и ее обобщаемость на другие области

Вопросы по теме