Обучение с подкреплением и теория игр

В последние годы методы машинного обучения и глубокого обучения демонстрируют выдающуюся производительность в различных областях, таких как обработка речи, прогнозирование, компьютерное зрение, машинный перевод, прогнозирование, робототехника и т. Д. Сущность различных концепций машинного обучения заключается в следующем:

1. Обучение с подкреплением

Что делает RL уникальным? Обучение с подкреплением помогает машинам научиться принимать решения о действиях, которые соответствуют или, в некоторых случаях, выходят далеко за рамки человеческого понимания, используя определенные параметры.

Обучение с подкреплением (RL) - это целенаправленное обучение, при котором агент обучается в среде для достижения цели путем выбора наилучших возможных действий. Для каждого действия можно определить положительную или отрицательную награду. Эти награды служат замечаниями, из которых наша модель может извлекать уроки из ошибок и продолжать улучшаться с каждой итерацией.

1.1 Платформы

Платформы используются для моделирования среды RL, которая обычно представляет собой конечное и стационарное пространство, используемое для обучения агентов. Горизонт действия агента в окружающей среде может быть конечным или бесконечным в зависимости от требований. Но среда обычно моделируется как стохастическое пространство конечных машин, в котором агенты наблюдают и предпринимают действия для максимизации вознаграждения.

Ниже приводится сравнение часто используемых RL-платформ с открытым исходным кодом. Для получения более подробной информации прочтите Обзор платформ RL с открытым исходным кодом.

1.2 Параметры

Необходимые параметры, которые считаются необходимыми для обучения модели RL, следующие:

Агент: один или несколько агентов
Состояние: S
Действия: A (S), A
Модель: T (s, a, s ') ~ Pr (s' | s, a)
Награды: R (s), R (s, a), R (s, a, s ')
Политика: π (s) = a, π * (s)

1.3 RL-API

Вот некоторые из часто используемых интерфейсов в RL:

Планировщик: модель (T, R) - политика
Обучаемый: переходы (s, a, r, s ') - политика
Разработчик модели: переходы - модель
Симулятор: модель - переходы
Планировщик на основе RL:
model-Simulator-Learner-policy
Model-Based Planner:
transitions-Modeler-Planner-policy

2. Алгоритмы обучения с подкреплением.

2.1 Марковский процесс принятия решений

MDP - это алгоритм принятия решений, обеспечивающий машины в ограниченном пространстве среды с наилучшим возможным состоянием действий, чтобы максимизировать их вознаграждение. MDP обычно учитывает только текущее состояние. В случае, если нам нужно учитывать прошлое поведение для дальнейших действий, мы должны объединить эту информацию с текущим состоянием.

Чтобы решить MDP, мы принимаем во внимание следующие два предположения:
● Бесконечный горизонт в стационарном мире (примечание: возможны случаи с конечным горизонтом или временем. Но в этой статье мы рассматривали только бесконечность)
● Полезность последовательностей, т.е. состояние предпочтений (помогает выбрать лучшую политику)

2.1.1 Функция значения

Полезность (ценность) можно рассчитать с помощью уравнения Беллмана. Где, 𝛾 -
коэффициент дисконтирования для изменения бесконечной последовательности временных меток на конечные значения. Итерацию
значения можно выполнить следующим образом:
● Начать с произвольной утилиты
● Обновить утилиты на основе соседей с помощью
● Повторять до сходимости

2.1.2 Итерация политики

Псевдокод для итерации политики выглядит следующим образом:

2.1.3 Подход MDP

Три часто используемых подхода MDP:
● Поиск политики: действие-политика-состояние
● На основе значения: значение-полезность-состояние
● На основе модели: (s, a) - (переход , награда) - (s ', r)

Эти три подхода можно связать следующим образом:

2.2 Q-Learning

Q-Learning - это функция ценности действия, которая была введена для дальнейшей оптимизации выбора агента и вычисления оптимальной полезности и оптимальной политики без необходимости изучения вероятности перехода или функции вознаграждения. Его можно определить как значение агента, который приходит в состояние (я), совершая действие (а) и оптимально продолжая после этого.

Псевдокод для Q-обучения выглядит следующим образом (где α-скорость обучения):

2.2.1 Ɛ-Жадное исследование

Ɛ-жадное исследование - это способ случайного выбора. Он использует жадный предел бесконечного исследования (GLIE), чтобы со временем распадаться Ɛ. Это можно рассматривать как фундаментальный компромисс в RL для уменьшения неоптимального сожаления.

Итак, со временем будут вычислены оптимальные Q (изучение - исследование) и π (использование - эксплуатация). Проблемы исследования-эксплуатации, такие как игровые автоматы, - лучший пример понимания Ɛ-жадного исследования.

2.3. Теория игры

Теория игр обычно определяется как математика конфликтов и используется в различных областях, таких как экономика, психология, искусственный интеллект, социология и т. Д. В теории игр относительно RL политика - это стратегия, отображающая все возможные состояния действий в отношении один из игроков игры.

Типы игр в Multi-Agent RL (MARL):
● Статические игры: игроки независимы и принимают одновременное решение
● Сценические игры: правила зависят от конкретных этапов
● Повторяющиеся игры : когда игра ведется последовательно

Основная игра для понимания теории игр - это «конечная детерминированная игра с нулевой суммой для двоих с идеальной информацией». Дальнейшее понимание может быть получено путем изменения различных параметров, таких как недетерминированная, скрытая информация, ненулевая сумма. В материалах Эндрю Мура есть широкий спектр игр, которые дают представление о различных концепциях теории игр.

2.3.1 Равновесие Нэша

Рассмотрим n игроков в игре со стратегиями s1, s2,… sn. Тогда стратегии называются находящимися в NE, если и только если стратегии всех игроков соответствуют оптимальной стратегии этого игрока. Три фундаментальные теоремы для NE:
● В чистой стратегии для n игроков, если исключение строго доминируемых
стратегий исключает все комбинации, кроме одной, тогда это уникальный NE.
● Любой сетевой элемент переживет устранение строго доминируемых стратегий.
● Если n конечно, а s (i) конечное, существует по крайней мере один сетевой элемент.

2.3.2 Стратегии IDP

Триггер «Око за око» и «Мрачный триггер» - одни из самых известных стратегий решения
повторяющейся дилеммы заключенного (повторяющиеся игры).

Состояние действия игрока в TFT определяется с использованием следующей стратегии:
● Сотрудничать в первом раунде
● После этого копировать предыдущий ход противника.

Состояние действия игрока в Grim Trigger выглядит следующим образом:
● Продолжать сотрудничать с другими игроками.
● Если какой-либо игрок совершит ошибку хотя бы один раз, он продолжит сбегать навсегда.

2.3.3 Профиль Minmax

● Профиль Minmax обычно представляет собой пару выплат, по одной для каждого
игрока, которая представляет собой выигрыш, который может быть достигнут игроком,
защищаясь от злонамеренного случайного противника.
● Итак, это в основном похоже на игры с нулевой суммой, где каждый игрок будет стараться
уменьшить вознаграждение другого игрока.
● Профиль Minmax используется с чистой стратегией для поиска выплат, а в случае
смешанной стратегии , будем использовать выплаты уровня безопасности.

2.3.4 Народная теорема

● Общая идея теоремы Фолка гласит: «В повторяющихся играх
возможность возмездия открывает дверь для сотрудничества».
● В теории игр это относится к конкретному результату. Его можно описать как
набор выплат, которые могут быть получены в результате стратегий Нэша в повторяющихся играх.
● Мы можем получить допустимую область (средний выигрыш совместной стратегии) и
допустимую область (предпочтительно - профиль Minmax)
● Любой возможный профиль выплат, который строго доминирует над уровнем minmax / безопасности
, может быть реализован как равновесная выплата по Нэшу с достаточно большим
коэффициентом дисконтирования. Потому что, если он строго доминирует над профилем minmax, он может
использовать его как угрозу.

2.3.5 Идеальная подигра

● Стратегия считается совершенной под-игрой, если игрок всегда выбирает лучший
ответ, независимо от истории.
● Проще говоря, идеальная под-игра избегает неправдоподобных угроз, а
продолжает выбирать Лучшее состояние действия с течением времени.
● TFT и триггер Grim находятся в равновесии по Нэшу, но не являются идеальными подиграми.

2.3.6 Стратегия Павлова

Павлов - еще одна стратегия IDP, где игроки сотрудничают, если соглашаются, и отказываются, если не соглашаются. Павлов удовлетворяет как равновесию по Нэшу, так и идеальной подигре. Вычислительная народная теорема может быть использована для создания машин типа Павлова. CFT также может построить идеальное равновесие по Нэшу для любых игр за полиномиальное время. Некоторые преимущества использования CFT:
● Павлов, если возможно
● Как с нулевой суммой (2 игрока)
● По крайней мере, один игрок улучшает

3. Благодарность:

Эта статья представляет собой базовый обзор RL. В настоящее время я работаю над серией руководств по RL, которые дадут читателям краткое представление о различных параметрах и методах RL с практической реализацией с использованием python. Эта серия руководств создается на основе моего понимания материалов по RL от Технологического института Джорджии, Практического обучения от Национального исследовательского университета Высшей школы экономики и различных блогов экспертов в этой области (я упомянул ссылки на то же самое).