Публикации по тегам temporal-difference

Публикации по теме 'temporal-difference'

Обучение с подкреплением: обучение с временной разницей — Часть 1

Со времени последних статей мы все больше и больше переходили от теории к практике. Последние две статьи о методах Монте-Карло использовались для решения проблемы прогнозирования и проблемы управления в обучении с подкреплением. Продолжая методы Монте-Карло, в этой статье мы рассмотрим другой метод, называемый Обучение по временной разнице (TD) . TD-обучение — центральная и новая идея обучения с подкреплением . Его можно рассматривать как комбинацию двух других основных..

Двойное Q-Learning - легкий способ

Введение в понимание двойного Q-Learning Q-обучение (Watkins, 1989) считается одним из прорывов в алгоритме обучения с подкреплением управления TD. Однако в своей статье Двойное Q-Learning Хадо ван Хасселт объясняет, почему Q-Learning очень плохо работает в некоторых стохастических средах. Он указал, что низкая производительность вызвана большим переоценкой значений действий из-за использования Max Q (s ’, a) в Q-обучении. Чтобы решить эту проблему, он предложил метод двойного..

Вопросы по теме 'temporal-difference'

Нейронная сеть и обучение временной разнице

Я прочитал несколько статей и лекций по изучению временных различий (некоторые из них относятся к нейронным сетям, например учебник Саттона по TD-Gammon), но мне трудно понять уравнения, что приводит меня к моим вопросам. -Откуда берется...

1915 просмотров

20.02.2023

Обучение нейронной сети с подкреплением, требующее распространения следующего состояния для обратного распространения

Я пытаюсь построить нейронную сеть, включающую свертки и LSTM (используя библиотеку Torch), для обучения с помощью Q-learning или Advantage-learning, оба из которых требуют распространения состояния T+1 по сети перед обновлением весов для состояния T....

338 просмотров

lstm neural-network torch reinforcement-learning temporal-difference

19.06.2022

Как выбрать действие в обучении TD(0)

Сейчас я читаю Reinforcement Learning: An introduction книгу Саттона. После прочтения главы 6.1 я захотел реализовать алгоритм TD(0) RL для этой настройки: Для этого я попытался реализовать представленный здесь псевдокод: При...

1106 просмотров

reinforcement-learning temporal-difference

26.03.2024

Как предотвратить взрыв трассировки приемлемости в SARSA с лямбда = 1 для пар состояние-действие, которые посещаются огромное количество раз?

Я тестировал SARSA с лямбда = 1 с помощью Windy Grid World, и если исследование вызывает многократное посещение одной и той же пары состояние-действие до достижения цели, трассировка приемлемости увеличивается каждый раз без какого-либо распада,...

280 просмотров

reinforcement-learning temporal-difference sarsa

13.06.2023

Это политика обучения Монте-Карло или итерация ценности (или что-то еще)?

Я прохожу курс по обучению с подкреплением и не понимаю, как объединить концепции итерации политики/итерации значения с Монте-Карло (а также TD/SARSA/Q-обучение). В таблице ниже, как можно заполнить пустые ячейки: Должен/может ли это быть двоичным...

568 просмотров

reinforcement-learning q-learning monte-carlo-tree-search value-iteration temporal-difference

24.11.2023

Когда использовать Монте-Карло вместо обучения TD, и наоборот

При изучении обучения с подкреплением, и именно когда речь идет о безмодельном RL, мы обычно используем два метода: TD обучение Монте-Карло Когда каждый из них используется поверх другого? Другими словами, как нам определить, какой метод...

99 просмотров

machine-learning reinforcement-learning montecarlo temporal-difference

18.01.2024