Если вы до сих пор следили за моими статьями, вы начнете понимать, что очевидным для многих продвинутых практиков глубокого обучения (DL) является появление концепций теории игр при проектировании новых архитектур.

Это интуитивно понятно по двум причинам. Первая интуиция заключается в том, что системам дистанционного обучения в конечном итоге придется решать ситуации с несовершенными знаниями. Фактически, мы уже видели это в AlphaGo от DeepMind, которая использует частичные знания для тактического и стратегического превосходства над лучшим в мире человеком в игре го.

Вторая интуиция заключается в том, что системы не останутся монолитными, как сейчас, а будут включать в себя несколько координирующих (или конкурирующих) клик систем DL. Фактически мы уже сейчас видим это при построении состязательных сетей. Состязательные сети состоят из конкурирующих нейронных сетей, генератора и дискриминатора, первая пытается генерировать поддельные изображения, а вторая пытается идентифицировать реальные изображения. Интересной особенностью этих систем является то, что функция потерь в замкнутой форме не требуется. Фактически, некоторые системы обладают удивительной способностью обнаруживать собственную функцию потерь! Недостатком состязательных сетей является то, что их сложно обучить. Состязательное обучение состоит в нахождении равновесия по Нэшу для некооперативной игры двух игроков. Ян ЛеКун в недавней лекции по обучению без учителя назвал состязательные сети самой крутой идеей в машинном обучении за последние двадцать лет [LeC].

Мы все еще находимся на ранних этапах использования теории игр, но я укажу на некоторые статьи, в которых есть теоретико-игровая направленность. У Дэвида Балдуцци есть структура для глубокого обучения, основанная на теоретико-игровом подходе. В своей статье Семантика, представления и грамматики глубокого обучения [BAL] он пишет:

Возможная критика заключается в том, что формулировка слишком широка. … Тем не менее, можно выделить интересный подкласс невыпуклых игр, определив композицию простых функций как существенную черту, общую для архитектур глубокого обучения. Композиционность формализуется с помощью распределенных коммуникационных протоколов и грамматик.

Это очень элегантный подход к освещению темы, которая в остальном сбивает с толку. У него есть эти красивые графики (по состязательным сетям), которые подчеркивают силу его подхода:

Мне бы очень хотелось, чтобы с таким подходом был написан целый учебник!

У Дэвида Сильвера и Йоханнеса Генриха есть статья под названием Глубокое обучение с подкреплением на основе самостоятельной игры в играх с несовершенной информацией [SILHEI]. Они пишут:

Мы представили NFSP, первый метод сквозного глубокого обучения с подкреплением для изучения приближенных равновесий Нэша в играх с несовершенной информацией на основе самостоятельной игры. В отличие от предыдущих теоретико-игровых методов, NFSP масштабируется без предварительного знания предметной области. Кроме того, NFSP - это первый метод глубокого обучения с подкреплением, который, как известно, сходится к приближению равновесия по Нэшу в игре с самим собой.

Джейсон Хартфорд и другие используют глубокое обучение для прогнозирования поведения человека. Они пишут в Глубинном обучении для прогнозирования стратегического поведения человека [HAR]:

В литературе по теории поведенческих игр разработан широкий спектр моделей для прогнозирования человеческого поведения в стратегических условиях путем включения когнитивных предубеждений и ограничений, полученных на основе наблюдений за игрой и выводов когнитивной психологии.

То, что мы видим в этих трех игроках, - это 3 различных способа, которыми теория игр играет в глубоком обучении. (1) Как средство описания и анализа новых архитектур DL. (2) как способ построения стратегии обучения и (3) способ прогнозирования поведения участников-людей. Последнее приложение может вызвать мурашки по коже!

Математика предоставляет нам абстракции, которые помогают нам в понимании сложных систем. Однако каждая форма абстракции имеет свои ограничения в том, что есть некоторые детали, которые не учитываются. С помощью геометрии, динамики и логики мы можем набросать некоторую интуицию относительно того, как подобные системы будут вести себя. Из этого мы начинаем понимать, что эти системы состоят из классификаторов, построенных на основе других классификаторов. Они представляют собой самоподобную систему, которую следует рассматривать как совокупность множества взаимодействующих машин. Кроме того, эти машины предназначены для предсказания будущего. Эти прогнозы необходимо выполнять с использованием неполных и несовершенных данных. Поэтому нам нужна математическая структура, изучающая поведение многих взаимодействующих сторон, которые имеют разные наборы информации.

Классический взгляд на машинное обучение состоит в том, что проблему можно представить как задачу оптимизации, где все, что нужно, - это алгоритмы, способные искать оптимальное решение. Однако с помощью машинного обучения мы хотим создавать машины, которые не будут перегружать данные, а скорее будут способны хорошо работать с данными, с которыми ему еще предстоит столкнуться. Мы хотим, чтобы эти машины предсказывали неизвестное. Это требование, называемое обобщением, сильно отличается от классической задачи оптимизации. Это сильно отличается от классической задачи динамики, где ожидается, что вся информация будет доступна. Вот почему большая часть инженерных работ в области глубокого обучения требует дополнительных ограничений для задачи оптимизации. Они, к моему неудовольствию, в некоторых текстах называются «априорными», а также называются регуляризациями в задаче оптимизации.

Откуда берутся эти регуляризации и как выбрать хорошую регуляризацию? Как мы обращаемся с беспристрастной информацией? Вот где важна точка зрения теории игр. Обобщение иногда называют «минимизацией структурного риска». Другими словами, мы создаем механизмы для обработки обобщения, используя стратегии, аналогичные тем, как стороны снижают риск. Итак, мы фактически вернулись на круги своя. Теория игр описывается как «исследование математических моделей конфликта и сотрудничества между разумными и рациональными лицами, принимающими решения». В наших поисках понимания обучающихся машин мы в конечном итоге получаем математику, предназначенную для изучения взаимодействия разумных существ.

Обновление: новая статья о контрфактических рассуждениях и DL: https://arxiv.org/pdf/1701.01724v1.pdf DeepStack: Искусственный интеллект на уровне экспертов в безлимитном покере

Обновление: 9 февраля 2017 г .: DeepMind исследует https://deepmind.com/blog/understanding-agent-cooperation/

Https://www.ceremade.dauphine.fr/journees_ceremade/Viossat.pdf

Не упустите возможность присоединиться к разговору, запросив приглашение в LinkedIn: https://www.linkedin.com/groups/8584076, или, если вы нетехнический специалист, то FB: https://www.facebook.com/ группы / шаблоны углубленного изучения или посетите нас в Машине интуиции .

Обновление: Google / DeepMind выпускает новую статью Единая теоретическая модель игры для многоагентного обучения ».

Ссылки

[LeC] https://www.youtube.com/watch?v=IbjF5VjniVE

[BAL] https://www.researchgate.net/publication/282403687_Semantics_Representations_and_Grammars_for_Deep_Learning

[SILHEI] https://arxiv.org/pdf/1603.01121.pdf

[HAR] http://www.cs.ubc.ca/~jasonhar/GameNet-NIPS-2016.pdf