Я тестировал SARSA с лямбда = 1 с помощью Windy Grid World, и если исследование вызывает многократное посещение одной и той же пары состояние-действие до достижения цели, трассировка приемлемости увеличивается каждый раз без какого-либо распада, поэтому она взрывается и вызывает все переполниться. Как этого избежать?
Как предотвратить взрыв трассировки приемлемости в SARSA с лямбда = 1 для пар состояние-действие, которые посещаются огромное количество раз?
Ответы (1)
Если я правильно понял ваш вопрос, проблема в том, что трассировка для данного состояния слишком сильно увеличивается. В этом случае возможное решение — использовать заменяющие трассировки вместо классических добавочных трассировок.
Идея замены трассировки состоит в том, чтобы сбрасывать трассировку на значение (обычно 1) каждый раз при посещении состояния. На следующем рисунке показано основное различие между обоими типами трасс:
Дополнительную информацию можно найти в классической книге Саттона и Барто Обучение с подкреплением: введение, особенно в Раздел 7.8.
person
Pablo EM
schedule
25.07.2017
lambda = 1
? - person Pablo EM   schedule 24.07.2017