REINFORCE: Градиент политики Монте-Карло
將所有 состояния 加總起來,並以 состояния 在 целевая политика π 下有多常發生為權重,再以 γ 乘以 有多少步到達該 состояния 為權重。
Правая часть представляет собой сумму состояний, взвешенную по тому, как часто состояния возникают в соответствии с целевой политикой π, снова взвешенную на γ, умноженное на количество шагов, необходимых для достижения этих состояний; если мы просто будем следовать за π, мы столкнемся с состояниями в этих пропорциях (заменив s на состояние выборки St)
- Глава 9.2. В эпизодическом случае d(s) — это доля времени, проведенного в состоянии s в соответствии с целевой политикой pi, которая называется распределением политики.
- Трудная часть для объяснения. Вот мой прогресс сейчас (могу ошибаться! ):
Далее, замена a образцом действия At.
Получить (13.6),
Интуиция:
- Каждое приращение пропорционально произведению доходности Gt и вектора.
- Вектор: направление в пространстве весов, которое больше всего увеличивает вероятность повторения действия At при будущих посещениях St.
Имеет смысл: заставляет грузы двигаться больше всего в направления, которые отдают предпочтение действиям, приносящим наибольшую отдачу. - Обратно пропорциональна вероятности действия.
Уменьте: действий Вероятность 越 大, 要 越少 最 大 新 它 它 的 可能 會 勝出 勝出 最 大 大 是 是是 /сильный> - REINFORCE — это метод Монте-Карло (почему?)
- Высокая дисперсия и медленное обучение.