Публикации по теме 'temporal-difference'


Обучение с подкреплением: обучение с временной разницей — Часть 1
Со времени последних статей мы все больше и больше переходили от теории к практике. Последние две статьи о методах Монте-Карло использовались для решения проблемы прогнозирования и проблемы управления в обучении с подкреплением. Продолжая методы Монте-Карло, в этой статье мы рассмотрим другой метод, называемый Обучение по временной разнице (TD) . TD-обучение — центральная и новая идея обучения с подкреплением . Его можно рассматривать как комбинацию двух других основных..

Двойное Q-Learning - легкий способ
Введение в понимание двойного Q-Learning Q-обучение (Watkins, 1989) считается одним из прорывов в алгоритме обучения с подкреплением управления TD. Однако в своей статье Двойное Q-Learning Хадо ван Хасселт объясняет, почему Q-Learning очень плохо работает в некоторых стохастических средах. Он указал, что низкая производительность вызвана большим переоценкой значений действий из-за использования Max Q (s ’, a) в Q-обучении. Чтобы решить эту проблему, он предложил метод двойного..

Вопросы по теме 'temporal-difference'

Нейронная сеть и обучение временной разнице
Я прочитал несколько статей и лекций по изучению временных различий (некоторые из них относятся к нейронным сетям, например учебник Саттона по TD-Gammon), но мне трудно понять уравнения, что приводит меня к моим вопросам. -Откуда берется...
1915 просмотров

Обучение нейронной сети с подкреплением, требующее распространения следующего состояния для обратного распространения
Я пытаюсь построить нейронную сеть, включающую свертки и LSTM (используя библиотеку Torch), для обучения с помощью Q-learning или Advantage-learning, оба из которых требуют распространения состояния T+1 по сети перед обновлением весов для состояния T....
338 просмотров

Как выбрать действие в обучении TD(0)
Сейчас я читаю Reinforcement Learning: An introduction книгу Саттона. После прочтения главы 6.1 я захотел реализовать алгоритм TD(0) RL для этой настройки: Для этого я попытался реализовать представленный здесь псевдокод: При...
1106 просмотров

Как предотвратить взрыв трассировки приемлемости в SARSA с лямбда = 1 для пар состояние-действие, которые посещаются огромное количество раз?
Я тестировал SARSA с лямбда = 1 с помощью Windy Grid World, и если исследование вызывает многократное посещение одной и той же пары состояние-действие до достижения цели, трассировка приемлемости увеличивается каждый раз без какого-либо распада,...
280 просмотров

Это политика обучения Монте-Карло или итерация ценности (или что-то еще)?
Я прохожу курс по обучению с подкреплением и не понимаю, как объединить концепции итерации политики/итерации значения с Монте-Карло (а также TD/SARSA/Q-обучение). В таблице ниже, как можно заполнить пустые ячейки: Должен/может ли это быть двоичным...
568 просмотров

Когда использовать Монте-Карло вместо обучения TD, и наоборот
При изучении обучения с подкреплением, и именно когда речь идет о безмодельном RL, мы обычно используем два метода: TD обучение Монте-Карло Когда каждый из них используется поверх другого? Другими словами, как нам определить, какой метод...
99 просмотров