Публикации по теме 'value-iteration'


Марковский процесс принятия решений и методы динамического программирования для RL
Марковский процесс принятия решений RL — это набор методов, которые учатся оптимально вести себя в среде, тогда как Марковские процессы принятия решений (MDP) — это структура, используемая для математической формулировки задач RL. В задачах RL все состояния обладают «марковским» свойством, относящимся к тому факту, что будущее состояние зависит только от текущего состояния: Или, другими словами, вся информация о будущем состоянии заключена в текущем состоянии. В задачах RL..

Обучение с подкреплением: навигация в системе метро
Вы находитесь на обзорной экскурсии по прекрасному городу Вене. Чтобы перемещаться по городу, предположим, что вы движетесь по одномерному промежутку (например, по карте метро). Вы хотите добраться до достопримечательности (собора Святого Стефана) в состоянии 15, чтобы сделать снимки, которые принесут вам наибольшую пользу, т. е. наибольшую награду. Чтобы попасть туда, у вас есть 4 действия: иди направо идти налево садитесь на метро M1 садитесь на метро M2 Чтобы найти..

Основы обучения с подкреплением (с примером)
Машинное обучение предоставило различные формулировки для решения проблем. Обучение с подкреплением — это третья парадигма машинного обучения после обучения с учителем и без учителя. Здесь цель состоит в том, чтобы развиваться и учиться на ошибках, и, в отличие от двух других парадигм, данные для этого в основном развиваются по мере их появления. Цитируя Kaelbling, LP в его обзорной статье 1996 года (Reinforcement Learning: A Survey): Обучение с подкреплением (RL) — это обучение..

Вопросы по теме 'value-iteration'

Более быстрый доступ к 2D numpy/массиву или большому 1D numpy/массиву
Я выполняю приоритетную подметку, для которой у меня есть матрица с 1000 * 1000 ячеек (gridworld), к ячейкам которой я должен неоднократно обращаться в течение истинного цикла while для назначения (я по существу не повторяю список, но ко всем ячейкам...
251 просмотров
schedule 28.07.2022

Это политика обучения Монте-Карло или итерация ценности (или что-то еще)?
Я прохожу курс по обучению с подкреплением и не понимаю, как объединить концепции итерации политики/итерации значения с Монте-Карло (а также TD/SARSA/Q-обучение). В таблице ниже, как можно заполнить пустые ячейки: Должен/может ли это быть двоичным...
568 просмотров

почему методы итерации политики и итерации значений дают разные результаты для оптимальных значений и оптимальной политики?
В настоящее время я изучаю динамическое программирование в обучении с подкреплением, в котором я столкнулся с двумя концепциями Value-Iteration и Policy-Iteration . Чтобы понять то же самое, я реализую пример gridworld из Sutton, который говорит:...
683 просмотров

Являются ли эти две разные формулы для обновления значения-итерации эквивалентными?
Изучая MDP из разных источников, я наткнулся на две разные формулы для обновления значения в алгоритме Value-Iteration. Первый (тот, что в Википедии и паре книг): . И второе (в некоторых вопросах здесь, в стеке, и слайды моего курса):...
31 просмотров
schedule 15.10.2022