Публикации по тегам sarsa

Публикации по теме 'sarsa'

ОПТИМАЛЬНО или САМОЕ БЕЗОПАСНОЕ?

Учитывая, что вам нужно проехать из пункта А в пункт Б. Выберете ли вы оптимальный, но самый опасный путь? Или вы бы предпочли выбрать самый безопасный, но самый трудоемкий путь? Исследуйте против эксплуатации В контексте обучения с подкреплением эксплуатация — это когда агент выбирает наилучшее действие, а исследование — это когда агент действует случайным образом, чтобы выяснить, есть ли другой лучший способ (способы) для достижения цели. Что такое политика? Политика в обучении..

ML 101: SARSA против Q-Learning

Два наиболее популярных алгоритма, используемых для обучения ИИ. для решения задач называются SARSA и Q-Learning. Если вы хотите увидеть детали их реализации, вы можете найти их на других сайтах, таких как этот . В этой статье вы увидите, чем они отличаются, и когда эта разница имеет значение. Представьте себе следующий сценарий. Вы и ваша вторая половинка живете в небольшой деревне под названием Смоллпорт. В эти выходные вы решили отправиться в путешествие из Смоллпорта в Литтлтон,..

Вопросы по теме 'sarsa'

Повторная инициализация трассировки соответствия между эпизодами внедрения SARSA-Lambda

Я смотрю на эту реализацию SARSA-Lambda (т.е. SARSA со следами правоспособности), и есть деталь, которую я до сих пор не понимаю. (Изображение с сайта http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html ) Итак, я понимаю, что...

3346 просмотров

machine-learning reinforcement-learning sarsa

30.09.2022

Алгоритм Сарса, почему Q-значения стремятся к нулю?

Я пытаюсь реализовать алгоритм Sarsa для решения среды Frozen Lake из тренажерного зала OpenAI. Я скоро начал работать с этим, но я думаю, что понимаю это. Я также понимаю, как работает алгоритм Sarsa, есть много сайтов, где можно найти псевдокод,...

1001 просмотров

python reinforcement-learning sarsa

13.11.2022

Понимание линейной Сарсы с градиентным спуском (на основе Sutton & Barto)

Я пытаюсь реализовать Sarsa с линейным градиентным спуском на основе Sutton & Barto. Бронируйте , смотрите алгоритм на картинке ниже. Однако я изо всех сил пытаюсь понять что-то в алгоритме: Не зависит ли размерность w и z от того, сколько...

576 просмотров

reinforcement-learning sarsa

01.07.2022

Как предотвратить взрыв трассировки приемлемости в SARSA с лямбда = 1 для пар состояние-действие, которые посещаются огромное количество раз?

Я тестировал SARSA с лямбда = 1 с помощью Windy Grid World, и если исследование вызывает многократное посещение одной и той же пары состояние-действие до достижения цели, трассировка приемлемости увеличивается каждый раз без какого-либо распада,...

280 просмотров

reinforcement-learning temporal-difference sarsa

13.06.2023