Монте-Карло Обучение

Обучение с подкреплением по методу Монте-Карло

В этой статье я расскажу о методе обучения с подкреплением Монте-Карло. Я кратко рассмотрел метод динамического программирования (итерация значений и итерация политики) в предыдущей статье. В динамическом программировании нам нужна модель (агент знает переход MDP и вознаграждения), а агент выполняет планирование (как только модель становится доступной, агент должен планировать свои действия в каждом состоянии). Агент не осуществляет реального обучения методу динамического программирования.

С другой стороны, метод Монте-Карло - это очень простая концепция, при которой агент узнает о состояниях и вознаграждает, когда он взаимодействует с окружающей средой. В этом методе агент генерирует опытные образцы, а затем на основе средней доходности вычисляется значение для состояния или действия состояния. Ниже приведены ключевые характеристики метода Монте-Карло (МК):

  1. Нет модели (агент не знает переходов MDP состояний)
  2. агент учится на выборочном опыте
  3. узнать значение состояния vπ (s) в соответствии с политикой π, получая среднюю доходность всех выбранных эпизодов (значение = средняя доходность)
  4. только после полного выпуска значения обновляются (из-за этого алгоритма сходимость медленная, а обновление происходит после того, как выпуск завершен)
  5. Нет начальной загрузки
  6. Может использоваться только в эпизодических задачах.

Рассмотрим аналогию из реальной жизни; Обучение в Монте-Карло похоже на ежегодный экзамен, когда студент завершает свой выпуск в конце года. Здесь результат годового экзамена подобен доходу, полученному студентом. Теперь, если цель задачи состоит в том, чтобы узнать, как учащиеся набирают баллы в течение календарного года (который здесь является эпизодом) для класса, мы можем взять образец результата какого-либо ученика, а затем вычислить средний результат, чтобы найти балл для класса (не Я считаю, что на целостном уровне вы можете понять суть обучения MC). Точно так же у нас есть TD-обучение или обучение временной разнице (TD-обучение похоже на обновление значения на каждом временном шаге и не требует ожидания до конца эпизода для обновления значений), которое мы рассмотрим в будущем блоге, можно рассматривать как еженедельный или ежемесячный экзамен (учащийся может корректировать свою успеваемость на основе этого балла (полученное вознаграждение) после каждого небольшого перерыва, а окончательный балл - это накопление всех еженедельных тестов (общее вознаграждение)).

Функция значения = ожидаемый доход

Ожидаемая доходность равна дисконтированной сумме всех вознаграждений.

В методе Монте-Карло вместо ожидаемой доходности мы используем эмпирическую доходность, полученную агентом в соответствии с политикой.

Если мы вернемся к нашему самому первому примеру сбора драгоценных камней, агент следует политике и завершает эпизод, попутно на каждом этапе собирая награды в виде драгоценных камней. Чтобы получить значение состояния, агент суммирует все драгоценные камни, собранные после каждого эпизода, начиная с этого состояния. См. Диаграмму ниже, на которой собраны 3 образца, начиная с состояния S 05. Общее вознаграждение получено (коэффициент дисконтирования для простоты равен 1) в каждом эпизоде ​​следующим образом:

Возврат (образец 01) = 2 + 1 + 2 + 2 + 1 + 5 = 13 драгоценных камней.

Возвращение (Образец 02) = 2 + 3 + 1 + 3 + 1 + 5 = 15 драгоценных камней.

Возвращение (Образец 03) = 2 + 3 + 1 + 3 + 1 + 5 = 15 драгоценных камней.

Наблюдаемая средняя доходность (на основе 3 образцов) = (13 + 15 + 15) / 3 = 14,33 драгоценных камня.

Таким образом, значение состояния согласно методу Монте-Карло, v π (S 05) составляет 14,33 драгоценных камня на основе 3 образцов, следующих политике π.

Диаграмма Монте-Карло резервного копирования

Диаграмма резервного копирования Монте-Карло будет выглядеть, как показано ниже (см. Сообщение 3-й блог для получения дополнительной информации о диаграмме резервного копирования.

Существует два типа методов оценки (прогнозирования) политики обучения MC:

Метод Монте-Карло при первом посещении

В этом случае в эпизоде ​​засчитывается первое посещение состояния (даже если агент возвращается в одно и то же состояние несколько раз в эпизоде, будет засчитано только первое посещение). Подробный шаг, как показано ниже:

  1. Чтобы оценить состояние s, сначала мы устанавливаем количество посещений, N (s) = 0, Total return TR (s) = 0 (эти значения обновляются по эпизодам)
  2. первый временной шаг t, при котором состояние s посещается в эпизоде, счетчик приращения N (s) = N (s) + 1
  3. Увеличение общей прибыли TR (s) = TR (s) + Gt
  4. Стоимость оценивается по средней доходности V (s) = TR (s) / N (s)
  5. По закону больших чисел V (s) - ›vπ (s) (это называется истинным значением в соответствии с политикой π), когда N (s) приближается к бесконечности

См. Диаграмму ниже для лучшего понимания приращения счетчика.

Метод Монте-Карло при каждом посещении

В этом случае в эпизоде ​​засчитывается каждое посещение государства. Подробный шаг, как показано ниже:

  1. Чтобы оценить состояние s, сначала мы устанавливаем количество посещений, N (s) = 0, Total return TR (s) = 0 (эти значения обновляются по эпизодам)
  2. каждый временной шаг t, в который в эпизоде ​​входит состояние s, счетчик приращения N (s) = N (s) + 1
  3. Увеличение общей прибыли TR (s) = TR (s) + Gt
  4. Стоимость оценивается по средней доходности V (s) = TR (s) / N (s)
  5. По закону больших чисел V (s) - ›vπ (s) (это называется истинным значением в соответствии с политикой π), когда N (s) приближается к бесконечности

См. Диаграмму ниже для лучшего понимания приращения счетчика.

Обычно MC обновляется постепенно после каждого эпизода (нет необходимости хранить старые значения эпизода, это может быть текущее среднее значение для состояния, обновляемое после каждого эпизода).

Постепенно обновлять V (s) после эпизодов S 1, A 2, R 3,…., S T для каждого состояния S t с возвратом G t

Обычно вместо 1 / N (S t) используется постоянная скорость обучения (α), и приведенное выше уравнение принимает следующий вид:

Для улучшения политики используется концепция обобщенного улучшения политики для обновления политики с использованием функции значения действия метода Монте-Карло.

У методов Монте-Карло есть следующие преимущества:

  • нулевое смещение
  • Хорошие свойства сходимости (даже при аппроксимации функций)
  • Не очень чувствителен к начальному значению
  • Очень просто понять и использовать

Но у него также есть следующие ограничения:

  • MC должен дождаться конца эпизода, прежде чем станет известно о возвращении
  • MC имеет высокую дисперсию
  • MC может учиться только на полных последовательностях
  • MC работает только в эпизодических (завершающих) средах

Несмотря на то, что метод MC требует времени, он является важным инструментом для любого специалиста по обучению с подкреплением.

Спасибо за прочтение . Вы можете подключить меня @ LinkedIn.