Почему мы позволяем случайности диктовать наш выбор действий в обучении с подкреплением

Если вы привыкли к детерминированным политикам принятия решений (например, как в Глубоком Q-обучении), необходимость и использование стохастических политик могут ускользнуть от вас. В конце концов, детерминированные политики предлагают удобное отображение состояния-действия π:s ↦ a, в идеале даже оптимальное отображение (то есть, если все уравнения Беллмана выучены в совершенстве ).

Напротив, стохастические политики,представленные условным распределением вероятностей действий в заданном состоянии, π:P(a|s), кажутся довольно неудобными и неточными. Зачем нам позволять случайности управлять нашими действиями, зачем оставлять выбор самых известных решений на волю случая?

На самом деле, огромное количество алгоритмов обучения с подкреплением (RL) действительно использует стохастические политики, судя по огромному количеству алгоритмов «актор-критик». Очевидно, что в этом подходе должна быть какая-то польза. В этой статье обсуждаются четыре случая, в которых стохастические стратегии превосходят их детерминированные аналоги.



И. Многоагентные среды

Предсказуемость не всегда хороша.

Из игры камень-ножницы-бумага совершенно ясно, что детерминированная политика с треском провалится. Оппонент быстро поймет, что вы всегда играете рок, и выберет соответствующее ответное действие. Очевидно, что равновесие Нэша здесь представляет собой равномерно распределенную политику, которая выбирает каждое действие с вероятностью 1/3. Как этому научиться? Как вы уже догадались: стохастическая политика.

Особенно в состязательной среде, когда противники преследуют разные цели и пытаются предвосхитить ваши решения, часто полезно иметь определенную степень случайности в политике. В конце концов, теория игр подсказывает, что часто не существует чистой стратегии, которая всегда формулирует единственный оптимальный ответ противнику, вместо этого пропагандируются смешанные стратегии как наилучший механизм выбора действий для многих игр.

Непредсказуемость — мощный конкурентный инструмент, и если эта черта желательна, стохастическая политика — лучший способ.

II. Частичные наблюдения (POMDP)

Во многих ситуациях у нас нет идеальной картины истинного состояния проблемы, а вместо этого мы пытаемся вывести ее из несовершенных наблюдений. Область частично наблюдаемых марковских процессов принятия решений (POMDP) ​​построена вокруг этого несоответствия между состоянием и наблюдением. То же самое несовершенство возникает, когда мы представляем состояния с помощью функций, что часто необходимо для обработки больших пространств состояний.

Рассмотрим знаменитый псевдоним GridWorld Дэвида Сильвера. Здесь состояния представлены наблюдением за окружающими стенами. На приведенной ниже иллюстрации в обоих заштрихованных состояниях агент наблюдает за стеной сверху и за стеной снизу. Хотя истинные состояния различны и требуют разных действий, они идентичны в наблюдении.

Основываясь только на несовершенном наблюдении, агент должен принять решение. Приближение функции ценности (например, Q-обучение) может легко застрять здесь, всегда выбирая одно и то же действие (например, всегда влево) и, таким образом, никогда не достигая вознаграждения. ϵ-жадное вознаграждение могло бы смягчить ситуацию, но в большинстве случаев все равно застревает.

Напротив, алгоритм градиента политики научится идти влево или вправо с вероятностью 0,5 для этих идентичных наблюдений, таким образом находя сокровище намного быстрее. Признавая, что агент имеет несовершенное восприятие своего окружения, он преднамеренно предпринимает вероятностные действия, чтобы противодействовать присущей ему неопределенности.

III. Стохастические среды

В большинстве сред — особенно в реальной жизни — наблюдается значительная неопределенность. Даже если бы мы приняли одно и то же решение в точно таком же состоянии, соответствующие траектории вознаграждения могут сильно различаться. Прежде чем мы получим разумную оценку ожидаемых нисходящих значений, нам, возможно, придется выполнить много-много итераций обучения.

Если мы сталкиваемся с такой значительной неопределенностью в самой среде — что отражается в ее функции перехода, — стохастическая политика часто помогает в ее обнаружении. Методы градиента политики предлагают мощный и встроенный механизм исследования, которого нет в обычных реализациях методов, основанных на значениях.

В этом контексте мы не обязательно ищем вероятностную политику по своей сути в качестве конечной цели, но она, безусловно, помогает при изучении окружающей среды. Сочетание вероятностного выбора действий и обновлений градиента политики направляет наши шаги по улучшению в неопределенной среде, даже если этот поиск в конечном итоге приводит нас к почти детерминированной политике.

По правде говоря, если мы посмотрим дальше стандартного ϵ-жадного алгоритма в аппроксимации функции ценности, то обнаружим ряд мощных стратегий исследования, которые прекрасно работают при изучении детерминированных политик:



IV. Помещения для непрерывных действий

Хотя есть некоторые обходные пути, для применения методов на основе значений в непрерывных пространствах обычно требуется дискретизировать пространство действий. Чем более мелкозернистая дискретизация, тем ближе аппроксимируется исходная задача. Однако это происходит за счет увеличения вычислительной сложности.

Рассмотрим беспилотный автомобиль. Как сильно нажимать на газ, как сильно нажимать на тормоза, как сильно нажимать на педаль газа — все это по своей сути непрерывные действия. В пространстве непрерывного действия они могут быть представлены тремя переменными, каждая из которых может принимать значения в определенном диапазоне.

Предположим, мы определяем 100 уровней интенсивности для газа и тормоза и 360 градусов для руля. С 100 * 100 * 360 = 3,6 миллиона комбинаций у нас есть довольно большое пространство для действий, но все еще не хватает тонкого прикосновения непрерывного контроля. Очевидно, что с комбинацией высокой размерности и непрерывных переменных особенно трудно справиться посредством дискретизации.

Напротив, градиентные методы политики отлично подходят для вытягивания непрерывных действий из репрезентативных вероятностных распределений, что делает их выбором по умолчанию для задач непрерывного управления. Например, мы можем представить политику тремя параметризованными распределениями Гаусса, изучая как среднее значение, так и стандартное отклонение.

Сближение с почти детерминированной политикой

Прежде чем завершить статью, важно подчеркнуть, что стохастическая политика не означает, что мы продолжаем принимать полуслучайные решения до конца времен.

В некоторых случаях (например, вышеупомянутый камень-ножницы-бумага или Aliased GridWorld) оптимальная политика требует выбора смешанного действия (с вероятностью 30%/30%/30% и 50%/50% соответственно). ).

В других случаях (например, выявление лучшего игрового автомата) оптимальный ответ может фактически быть детерминированным. В таких случаях стохастическая политика будет сходиться к почти детерминированной, например, выбор определенного действия с вероятностью 99,999%. Для пространств с непрерывным действием политика будет сходиться к очень малым стандартным отклонениям.

При этом политика никогда не будет полностью детерминированной. Для математиков, которые пишут доказательства сходимости, это на самом деле хорошее свойство, обеспечивающее бесконечные исследования в пределе. Практикам реального мира, возможно, придется быть немного прагматичными, чтобы избежать случайных идиотских действий.

Подведение итогов

Вот вам и четыре случая, когда стохастическая политика предпочтительнее детерминированной:

  • Многоагентная среда. Наша предсказуемость наказывается другими агентами. Добавление случайности к нашим действиям затрудняет предвидение противника.
  • Стохастические среды. Неопределенные среды требуют высокой степени исследования, которое по своей сути не обеспечивается алгоритмами, основанными на детерминированных политиках. Стохастические политики автоматически исследуют окружающую среду.
  • Частично наблюдаемая среда. Поскольку наблюдения (например, характерные представления состояний) являются несовершенными представлениями истинных состояний системы, нам трудно различать состояния, требующие разных действий. Смешивание наших решений может решить проблему.
  • Пространства непрерывных действий. В противном случае мы должны точно дискретизировать пространство действий, чтобы изучить функции значений. Напротив, методы, основанные на политике, изящно исследуют области непрерывных действий, опираясь на соответствующие функции плотности вероятности.

Рекомендации

https://www.davidsilver.uk/wp-content/uploads/2020/03/pg.pdf

https://www.freecodecamp.org/news/an-introduction-to-policy-gradients-with-cartpole-and-doom-495b5ef2207f/

https://en.wikipedia.org/wiki/Strategy_(game_theory)