Как предотвратить взрыв трассировки приемлемости в SARSA с лямбда = 1 для пар состояние-действие, которые посещаются огромное количество раз?

Я тестировал SARSA с лямбда = 1 с помощью Windy Grid World, и если исследование вызывает многократное посещение одной и той же пары состояние-действие до достижения цели, трассировка приемлемости увеличивается каждый раз без какого-либо распада, поэтому она взрывается и вызывает все переполниться. Как этого избежать?


person Ahmed El-Hinidy    schedule 24.07.2017    source источник
comment
что означает САРСА(1)? САРСА с lambda = 1?   -  person Pablo EM    schedule 24.07.2017
comment
Да, это то, что я имел в виду. Я изменю вопрос, чтобы сделать его более понятным. Спасибо.   -  person Ahmed El-Hinidy    schedule 25.07.2017


Ответы (1)


Если я правильно понял ваш вопрос, проблема в том, что трассировка для данного состояния слишком сильно увеличивается. В этом случае возможное решение — использовать заменяющие трассировки вместо классических добавочных трассировок.

Идея замены трассировки состоит в том, чтобы сбрасывать трассировку на значение (обычно 1) каждый раз при посещении состояния. На следующем рисунке показано основное различие между обоими типами трасс:

введите здесь описание изображения

Дополнительную информацию можно найти в классической книге Саттона и Барто Обучение с подкреплением: введение, особенно в Раздел 7.8.

person Pablo EM    schedule 25.07.2017