Я смотрю на эту реализацию SARSA-Lambda (т.е. SARSA со следами правоспособности), и есть деталь, которую я до сих пор не понимаю.
(Изображение с сайта http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html)
Итак, я понимаю, что обновляются все Q (s, a), а не только тот, который агент выбрал для данного временного шага. Я также понимаю, что матрица E не сбрасывается в начале каждой серии.
Предположим на минуту, что панель 3 на рисунке 7.12 была конечным состоянием эпизода 1.
В начале 2-го эпизода агент движется на север, а не на восток, и предположим, это дает ему награду -500. Не повлияет ли это также на все штаты, которые были посещены в предыдущем эпизоде?
Если идея состоит в том, чтобы вознаградить те состояния, которые были посещены в текущем эпизоде, то почему матрица, содержащая все значения e (s, a), не сбрасывается в начале каждого эпизода? Просто кажется, что в этой реализации состояния, которые были посещены в предыдущем эпизоде, «наказываются» или «награждаются» за действия, совершенные агентом в этом новом эпизоде.