Повторная инициализация трассировки соответствия между эпизодами внедрения SARSA-Lambda

Я смотрю на эту реализацию SARSA-Lambda (т.е. SARSA со следами правоспособности), и есть деталь, которую я до сих пор не понимаю.

введите описание изображения здесь

(Изображение с сайта http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html)

Итак, я понимаю, что обновляются все Q (s, a), а не только тот, который агент выбрал для данного временного шага. Я также понимаю, что матрица E не сбрасывается в начале каждой серии.

Предположим на минуту, что панель 3 на рисунке 7.12 была конечным состоянием эпизода 1.

В начале 2-го эпизода агент движется на север, а не на восток, и предположим, это дает ему награду -500. Не повлияет ли это также на все штаты, которые были посещены в предыдущем эпизоде?

Если идея состоит в том, чтобы вознаградить те состояния, которые были посещены в текущем эпизоде, то почему матрица, содержащая все значения e (s, a), не сбрасывается в начале каждого эпизода? Просто кажется, что в этой реализации состояния, которые были посещены в предыдущем эпизоде, «наказываются» или «награждаются» за действия, совершенные агентом в этом новом эпизоде.


person MrD    schedule 27.04.2015    source источник
comment
Это было исправлено в более позднем выпуске книги.   -  person rich    schedule 23.08.2019


Ответы (1)


Я согласен с вами на 100%. Если не сбросить электронную матрицу в начале каждого эпизода, возникают именно те проблемы, которые вы описываете. Насколько я могу судить, это ошибка псевдокода. Ссылка, которую вы цитируете, очень популярна, поэтому ошибка была распространена на многие другие ссылки. Однако в этой хорошо процитированной статье очень четко говорится, что электронная матрица должна быть повторно инициализирована между эпизодами. :

Трассы соответствия инициализируются нулем, а в эпизодических задачах они повторно инициализируются нулем после каждого эпизода.

В качестве дополнительного доказательства методы этой статьи:

След, e, устанавливается на 0 в начале каждого эпизода.

и сноску № 3 из этого документа:

... следы соответствия критериям обнулялись в начале каждого испытания.

предполагают, что это обычная практика, поскольку оба относятся к повторной инициализации между эпизодами. Я ожидаю, что таких примеров будет еще много.

На практике многие применения этого алгоритма не включают несколько эпизодов или имеют такие длинные эпизоды относительно скорости их распада, что в конечном итоге это не является проблемой. Я полагаю, что именно поэтому это еще не было разъяснено более подробно в другом месте в Интернете.

person seaotternerd    schedule 03.05.2015