Глубокое обучение с подкреплением, стр. 13.3

REINFORCE: Градиент политики Монте-Карло

將所有 состояния 加總起來，並以 состояния 在 целевая политика π 下有多常發生為權重，再以 γ 乘以有多少步到達該 состояния 為權重。

Правая часть представляет собой сумму состояний, взвешенную по тому, как часто состояния возникают в соответствии с целевой политикой π, снова взвешенную на γ, умноженное на количество шагов, необходимых для достижения этих состояний; если мы просто будем следовать за π, мы столкнемся с состояниями в этих пропорциях (заменив s на состояние выборки St)

Глава 9.2. В эпизодическом случае d(s) — это доля времени, проведенного в состоянии s в соответствии с целевой политикой pi, которая называется распределением политики.
Трудная часть для объяснения. Вот мой прогресс сейчас (могу ошибаться! ):

Далее, замена a образцом действия At.

Получить (13.6),

Интуиция:

Каждое приращение пропорционально произведению доходности Gt и вектора.
Вектор: направление в пространстве весов, которое больше всего увеличивает вероятность повторения действия At при будущих посещениях St.
Имеет смысл: заставляет грузы двигаться больше всего в направления, которые отдают предпочтение действиям, приносящим наибольшую отдачу.
Обратно пропорциональна вероятности действия.
Уменьте: действий Вероятность 越大, 要越少最大新它它的可能會勝出勝出最大大是是是 /сильный>
REINFORCE — это метод Монте-Карло (почему?)
Высокая дисперсия и медленное обучение.

Глубокое обучение с подкреплением, стр. 13.3

Вопросы по теме