Публикации по теме 'sarsa'


ОПТИМАЛЬНО или САМОЕ БЕЗОПАСНОЕ?
Учитывая, что вам нужно проехать из пункта А в пункт Б. Выберете ли вы оптимальный, но самый опасный путь? Или вы бы предпочли выбрать самый безопасный, но самый трудоемкий путь? Исследуйте против эксплуатации В контексте обучения с подкреплением эксплуатация — это когда агент выбирает наилучшее действие, а исследование — это когда агент действует случайным образом, чтобы выяснить, есть ли другой лучший способ (способы) для достижения цели. Что такое политика? Политика в обучении..

ML 101: SARSA против Q-Learning
Два наиболее популярных алгоритма, используемых для обучения ИИ. для решения задач называются SARSA и Q-Learning. Если вы хотите увидеть детали их реализации, вы можете найти их на других сайтах, таких как этот . В этой статье вы увидите, чем они отличаются, и когда эта разница имеет значение. Представьте себе следующий сценарий. Вы и ваша вторая половинка живете в небольшой деревне под названием Смоллпорт. В эти выходные вы решили отправиться в путешествие из Смоллпорта в Литтлтон,..

Вопросы по теме 'sarsa'

Повторная инициализация трассировки соответствия между эпизодами внедрения SARSA-Lambda
Я смотрю на эту реализацию SARSA-Lambda (т.е. SARSA со следами правоспособности), и есть деталь, которую я до сих пор не понимаю. (Изображение с сайта http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html ) Итак, я понимаю, что...
3346 просмотров

Алгоритм Сарса, почему Q-значения стремятся к нулю?
Я пытаюсь реализовать алгоритм Sarsa для решения среды Frozen Lake из тренажерного зала OpenAI. Я скоро начал работать с этим, но я думаю, что понимаю это. Я также понимаю, как работает алгоритм Sarsa, есть много сайтов, где можно найти псевдокод,...
1001 просмотров
schedule 13.11.2022

Понимание линейной Сарсы с градиентным спуском (на основе Sutton & Barto)
Я пытаюсь реализовать Sarsa с линейным градиентным спуском на основе Sutton & Barto. Бронируйте , смотрите алгоритм на картинке ниже. Однако я изо всех сил пытаюсь понять что-то в алгоритме: Не зависит ли размерность w и z от того, сколько...
576 просмотров
schedule 01.07.2022

Как предотвратить взрыв трассировки приемлемости в SARSA с лямбда = 1 для пар состояние-действие, которые посещаются огромное количество раз?
Я тестировал SARSA с лямбда = 1 с помощью Windy Grid World, и если исследование вызывает многократное посещение одной и той же пары состояние-действие до достижения цели, трассировка приемлемости увеличивается каждый раз без какого-либо распада,...
280 просмотров