Введение

В этой статье мы обсудим методы Монте-Карло для обучения с подкреплением, которые являются одной из основополагающих концепций, лежащих в основе нашего понимания, когда мы изучаем более сложные темы и методы обучения с подкреплением.

Начнем с понимания значения термина «Монте-Карло». Монте-Карло — это общий термин, который часто используется для определения любого метода оценки, который включает значительный случайный компонент, однако в отношении обучения с подкреплением это просто относится к методам, основанным на усреднении полных результатов.

Методы Монте-Карло в обучении с подкреплением относятся к классу методов, которые не предполагают знание модели/среды, вместо этого агент работает с опытом, который агент получает во время взаимодействия со средой, которая может быть реальной средой или смоделированной. один. Хотя для обучения в смоделированной среде нам потребуется некоторая информация о модели для имитации среды, тем не менее, она будет гораздо менее исчерпывающей, чем то, что нам нужно в таких методах, как Динамическое программирование, которое требует от нас знать вероятности каждого перехода.

Как уже упоминалось, методы Монте-Карло основаны на усреднении полных результатов, и для обеспечения доступности этих полных результатов методы Монте-Карло обычно определяются для эпизодических задач, что означает, что только по завершении эпизода значение состояния оценка и политика обновлены.

Как и для всех методов обучения с подкреплением, для методов Монте-Карло давайте сначала рассмотрим проблему прогнозирования, а затем переместим наше внимание на проблему управления.

Прогноз Монте-Карло

Прогнозирование относится к проблеме оценки значений состояний, значение состояния указывает на то, насколько хорошо это состояние для агента в данной среде, чем выше значение состояния, тем лучше находиться в этом состоянии. .

Очевидный способ оценить ценность состояния — просто усреднить все доходы, наблюдаемые после посещения состояния, и по мере того, как мы посещаем состояние чаще, средняя доходность будет сходиться к истинному значению состояния в ожидании. .

Есть два способа, которыми мы можем усреднять возврат после посещения состояния, которые обсуждаются ниже.

1. Первое посещение Монте-Карло (MC первого посещения). В методах Монте-Карло первого посещения мы усредняем все вознаграждения, наблюдаемые после первого посещения состояния.

2. Каждое посещение Монте-Карло (MC каждого посещения). В методах Монте-Карло каждого посещения мы усредняем доходность после всех посещений штата.

Давайте разберемся в этом на примере,

Рассмотрите MDP с одним неконечным состоянием и одним действием, которое переходит обратно в нетерминальное состояние с вероятностью p и переходит в конечное состояние с вероятностью 1−p. Пусть награда будет +1 на всех переходах, и пусть γ=1. Предположим, вы наблюдаете один эпизод, который длится 10 шагов с возвратом 10. Каковы оценки значения нетерминального состояния при первом посещении и при каждом посещении?

Оценка первого посещения: V(s) = 10

Оценка каждого посещения: V(s)= 10+9+8+7+6+5+4+3+2+1/10 = 5,5

Методы Монте-Карло первого посещения и каждого посещения сходятся к истинным значениям состояния, когда мы посещаем каждое состояние много раз.

Теперь один важный факт о методах Монте-Карло, который мы должны подчеркнуть здесь, заключается в том, что Монте-Карло является одним из немногих методов обучения с подкреплением, которые не используют начальную загрузку. Самозагрузка означает использование оценок для дальнейших оценок.

В методах Монте-Карло оценка значения состояния не зависит от оценки значения другого состояния, а оценка каждого состояния не зависит друг от друга, хотя это полезно, поскольку уменьшает смещение, однако делает сходимость значительно медленнее, в результате чего методы Монте-Карло редко используются в практических приложениях.

Теперь, когда мы увидели, как можно использовать метод Монте-Карло для оценки значения состояния для эпизодических задач, давайте перенесем наше внимание на проблему управления.

Контроль Монте-Карло

Проблема управления относится к проблеме оценки оптимальных политик, потому что в ситуациях, когда информация о модели доступна, значений состояния достаточно для определения политики, поскольку мы знаем все вероятности перехода, однако, когда информация о модели недоступна, необходимо явно оценить значение каждого действия в состоянии, чтобы эти значения были полезны при предложении политики.

Единственная проблема заключается в том, что некоторые пары «действие-состояние» могут никогда не посещаться. Эта проблема является частью общей проблемы поддержания достаточного уровня исследования в обучении с подкреплением, одного из часто используемых наивных подходов. называется предположением начала исследования, которое гласит, что каждая пара состояние-действие имеет ненулевую вероятность быть выбранной в качестве начального состояния и действия эпизода, хотя это удовлетворяет нашему требованию посещения каждой паре состояния и действия, совершенно очевидно, что это не решает проблему исследования, поскольку начальные состояния не очень важны для результата всего эпизода, однако это все же позволяет нам продолжить обсуждение об итерации обобщенной политики. (GPI) метод. Позже мы рассмотрим методы, которые более сложны, чем начало исследования, и позволяют нам поддерживать исследование более элегантным способом.

Оптимальная оценка политики в методе Монте-Карло основана на общем методе обобщенной итерации политики (GPI), где функция ценности многократно изменяется, чтобы более точно приблизиться к функции ценности для текущей политики, и политика многократно улучшается по отношению к текущей политике. функция текущего значения.

Мы проводим оценку политики, а затем неоднократно улучшаем политику, пока не сойдемся и не найдем оптимальную политику.

Оценка политики выполняется путем прохождения множества эпизодов (при условии, что эпизоды генерируются с началом исследования), в результате чего функция приблизительного значения действия асимптотически приближается к истинной функции, улучшение политики выполняется путем превращения политики в жадную по отношению к функции текущего значения. .

Одно важное допущение состоит в том, что оценка политики должна выполняться в течение бесконечного числа эпизодов, прежде чем она действительно сойдется к истинной функции ценности. Однако мы можем легко избавиться от этого предположения, которое требует отдельного обсуждения. А пока для простоты предположим, что мы знаем способ избавиться от этого предположения.

GPI предоставляет нам основу, которую можно применять для того, чтобы мы медленно приближались к наиболее оптимальной политике для данной проблемы.

Одним из основных предположений для работы GPI является то, что мы не зацикливаемся на детерминированных политиках, поскольку детерминированные политики по определению не меняются, и в результате мы не можем исследовать другие части среды (состояние и действие), что может привести к в лучших наградах, хотя начало исследования дало нам способ обойти этот блокировщик изначально, это не идеальный метод для продолжения исследования, поскольку он делает упор только на начало эпизода, который может не повлиять на исход эпизода.

Давайте теперь рассмотрим другие, более продвинутые подходы, которые гарантируют, что все действия выбираются бесконечно часто, то есть исследование продолжается на протяжении всего эпизода.

Это дилемма, с которой сталкиваются все методы управления переинформирующим обучением: мы хотим изучить оптимальную политику, но нам нужно действовать неоптимально, чтобы исследовать все действия, чтобы мы могли найти оптимальные.

Методы, которые мы рассматривали до сих пор, классифицируются как методы обучения на основе политики, которые пытаются оценить или улучшить политику, используемую для принятия решений, однако на самом деле это компромисс — он изучает значения действий, а не для оптимальной политики, но для почти оптимальной политики, которая все еще исследуется. Более простой подход заключается в использовании двух политик, одна из которых изучена и становится оптимальной, а другая является более исследовательской и используется для формирования поведения. Изучаемая политика называется целевой политикой, а политика, используемая для создания поведения, называется политикой поведения. В этом случае мы говорим, что обучение происходит на основе данных «вне» целевой политики, а весь процесс называется обучение вне политики.

Методы вне политики требуют дополнительных концепций, поскольку данные связаны с другой политикой, а также они медленно сходятся и имеют более высокую дисперсию, чем методы, основанные на политике.

Почти все внеполитические методы обучения используют выборку по важности — общий метод оценки ожидаемых значений при одном распределении по данным выборок из другого. Мы применяем выборку важности к обучению вне политики, взвешивая результаты в соответствии с относительной вероятностью их траекторий, происходящих в соответствии с целевой и поведенческой политикой, называемой отношением важности к выборке.

Существует два типа выборки по важности, о которых мы должны знать:

  1. Обычная выборка по важности: выборка по важности с простым средним называется обычной выборкой.

2. Выборка по взвешенной важности: выборка по важности со средневзвешенным значением называется выборкой по взвешенной важности.

решение о том, какой из них использовать, когда , возвращается к классическому компромиссу смещения и дисперсии, однако на практике настоятельно рекомендуется взвешенная оценка.

Заключение

На этом мы завершаем наше обсуждение методов Монте-Карло в обучении с подкреплением, просто чтобы подвести итог, мы увидели, что методы Монте-Карло работают с выборочным опытом, а не с использованием модели окружающей среды, они не загружаются и работают в основном по принципу усреднения результатов.

Чтобы получить более глубокие знания о различных концепциях обучения с подкреплением, прочитайте эту замечательную книгу — Обучение с подкреплением: введение Ричарда Саттона и Эндрю Барто, которая также послужила основным источником вдохновения для этой статьи. .