Сейчас я читаю Reinforcement Learning: An introduction
книгу Саттона. После прочтения главы 6.1 я захотел реализовать алгоритм TD(0)
RL для этой настройки:
Для этого я попытался реализовать представленный здесь псевдокод:
При этом я задался вопросом, как сделать этот шаг A <- action given by π for S
: я могу выбрать оптимальное действие A
для моего текущего состояния S
? Поскольку значение функции V(S)
зависит только от состояния, а не от действия, я не знаю, как это можно сделать.
Я нашел этот вопрос (где Я получил изображения из ), которые относятся к тому же упражнению, но здесь действие просто выбирается случайным образом, а не выбирается политикой действия π
.
Редактировать: Или это неполный псевдокод, так что я тоже должен аппроксимировать action-value function Q(s, a)
другим способом?