Публикации по теме 'sarsa'
ОПТИМАЛЬНО или САМОЕ БЕЗОПАСНОЕ?
Учитывая, что вам нужно проехать из пункта А в пункт Б. Выберете ли вы оптимальный, но самый опасный путь? Или вы бы предпочли выбрать самый безопасный, но самый трудоемкий путь?
Исследуйте против эксплуатации
В контексте обучения с подкреплением эксплуатация — это когда агент выбирает наилучшее действие, а исследование — это когда агент действует случайным образом, чтобы выяснить, есть ли другой лучший способ (способы) для достижения цели.
Что такое политика?
Политика в обучении..
ML 101: SARSA против Q-Learning
Два наиболее популярных алгоритма, используемых для обучения ИИ. для решения задач называются SARSA и Q-Learning. Если вы хотите увидеть детали их реализации, вы можете найти их на других сайтах, таких как этот . В этой статье вы увидите, чем они отличаются, и когда эта разница имеет значение.
Представьте себе следующий сценарий. Вы и ваша вторая половинка живете в небольшой деревне под названием Смоллпорт. В эти выходные вы решили отправиться в путешествие из Смоллпорта в Литтлтон,..
Вопросы по теме 'sarsa'
Повторная инициализация трассировки соответствия между эпизодами внедрения SARSA-Lambda
Я смотрю на эту реализацию SARSA-Lambda (т.е. SARSA со следами правоспособности), и есть деталь, которую я до сих пор не понимаю.
(Изображение с сайта http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html )
Итак, я понимаю, что...
3346 просмотров
schedule
30.09.2022
Алгоритм Сарса, почему Q-значения стремятся к нулю?
Я пытаюсь реализовать алгоритм Sarsa для решения среды Frozen Lake из тренажерного зала OpenAI. Я скоро начал работать с этим, но я думаю, что понимаю это.
Я также понимаю, как работает алгоритм Sarsa, есть много сайтов, где можно найти псевдокод,...
1001 просмотров
schedule
13.11.2022
Понимание линейной Сарсы с градиентным спуском (на основе Sutton & Barto)
Я пытаюсь реализовать Sarsa с линейным градиентным спуском на основе Sutton & Barto. Бронируйте , смотрите алгоритм на картинке ниже.
Однако я изо всех сил пытаюсь понять что-то в алгоритме:
Не зависит ли размерность w и z от того, сколько...
576 просмотров
schedule
01.07.2022
Как предотвратить взрыв трассировки приемлемости в SARSA с лямбда = 1 для пар состояние-действие, которые посещаются огромное количество раз?
Я тестировал SARSA с лямбда = 1 с помощью Windy Grid World, и если исследование вызывает многократное посещение одной и той же пары состояние-действие до достижения цели, трассировка приемлемости увеличивается каждый раз без какого-либо распада,...
280 просмотров
schedule
13.06.2023