REINFORCE: Градиент политики Монте-Карло

將所有 состояния 加總起來,並以 состояния 在 целевая политика π 下有多常發生為權重,再以 γ 乘以 有多少步到達該 состояния 為權重。

Правая часть представляет собой сумму состояний, взвешенную по тому, как часто состояния возникают в соответствии с целевой политикой π, снова взвешенную на γ, умноженное на количество шагов, необходимых для достижения этих состояний; если мы просто будем следовать за π, мы столкнемся с состояниями в этих пропорциях (заменив s на состояние выборки St)

  • Глава 9.2. В эпизодическом случае d(s) — это доля времени, проведенного в состоянии s в соответствии с целевой политикой pi, которая называется распределением политики.
  • Трудная часть для объяснения. Вот мой прогресс сейчас (могу ошибаться! ):

Далее, замена a образцом действия At.

Получить (13.6),

Интуиция:

  1. Каждое приращение пропорционально произведению доходности Gt и вектора.
  2. Вектор: направление в пространстве весов, которое больше всего увеличивает вероятность повторения действия At при будущих посещениях St.
    Имеет смысл: заставляет грузы двигаться больше всего в направления, которые отдают предпочтение действиям, приносящим наибольшую отдачу.
  3. Обратно пропорциональна вероятности действия.
    Уменьте: действий Вероятность 越 大, 要 越少 最 大 新 它 它 的 可能 會 勝出 勝出 最 大 大 是 是是 /сильный>
  4. REINFORCE — это метод Монте-Карло (почему?)
  5. Высокая дисперсия и медленное обучение.