Этот пост представляет собой резюме лекции 2 Deep RL Bootcamp 2017 в Калифорнийском университете в Беркли. Все рисунки, уравнения и текст взяты из слайдов лекций и видеороликов, доступных здесь.

В Лекции 1 были представлены точные методы поиска оптимальной политики для данной MDP. Эти методы имеют некоторые ограничения, такие как:

  • обновление уравнений требует доступа к функции перехода
  • он требует повторения и хранения для всех состояний и действий.

Чтобы преодолеть эти ограничения, вводятся аппроксимации на основе выборки и аппроксимация функций следующим образом.

Приближения на основе выборки

Чтобы выйти за рамки первого ограничения, то есть требования переходной функции, в качестве лекарства используются приближения на основе выборки.

Во-первых, мы рассмотрим приближения на основе выборки для Q-обучения. Как упоминалось в лекции 1, в Q-обучении мы вычисляем Q * (s, a), используя итерацию Q-значения, определяемую как:

Как видно, итерация по значению Q требует знания функции перехода P (s ’| s, a),, которую нелегко узнать во многих практических случаях. Вместо этого мы можем взять образец из среды и использовать его для вычисления итераций Q-значения в скользящем среднем. Это называется (табличным) Q-обучением.

Для выбора действий используется метод, называемый ɛ-жадным, где мы выбираем случайные действия с вероятностью ɛ, в противном случае мы выбираем действие жадно, то есть действие, которое максимизирует Q_k (s, a). Кроме того, альфа - это скорость обучения и, как правило, небольшое значение.

Свойства Q-обучения: Q-обучение сводится к оптимальной политике, даже если вы действуете неоптимально (также это называется обучением вне политики).

Пример проблемы RL, которую можно решить с помощью (табличного) Q-обучения, - это Crawler, который будет рассмотрен в лабораторной работе 1.

Аппроксимация на основе выборки для других методов

Приближение на основе выборки непросто использовать для итерации значений, поскольку неясно, как рисовать выборки из-за операции max в уравнении итерации значений.

Кроме того, итерация политики состоит из двух этапов: оценка политики и улучшение политики. Приближение на основе выборки может быть сформулировано для оценки политики аналогично табличному Q-обучению. Однако для улучшения политики это опять же неясно из-за максимальной операции в уравнении.

Могут ли масштабироваться табличные методы?

Оказывается, нам понадобится огромный объем памяти, в зависимости от проблемы RL, для табличных методов. Например, для дискретных сред, таких как Atari Breakout, это может быть около 10³! Ясно, что это непреодолимо.

В реальных ситуациях мы не можем узнать о каждом состоянии! Вместо этого нам нужно обобщить, узнав о небольшом количестве тренировочных состояний из опыта, и обобщить этот опыт на новые, похожие ситуации. Например, вместо таблицы мы можем аппроксимировать Q -функцию параметризованной Q -функцией, такой как линейная функция функций или сложная нейронная сеть. Это будет тема глубокого обучения с подкреплением, о которой мы поговорим более подробно в следующих лекциях.

Заворачивать

В этой лекции были представлены два решения, включая приближения на основе выборки и аппроксимацию функций, чтобы устранить ограничения итерации значений и Q-обучения. Позже мы поговорим о глубоком RL более подробно.

Если вы нашли эту статью полезной, попробуйте нажать кнопку хлопка. Не стесняйтесь поделиться этой статьей на своей платформе. Вы также можете следить за мной в Twitter за последними сообщениями.

Возвращаясь к Лекции 1