Публикации по теме 'policy-iteration'
Марковский процесс принятия решений и методы динамического программирования для RL
Марковский процесс принятия решений
RL — это набор методов, которые учатся оптимально вести себя в среде, тогда как Марковские процессы принятия решений (MDP) — это структура, используемая для математической формулировки задач RL. В задачах RL все состояния обладают «марковским» свойством, относящимся к тому факту, что будущее состояние зависит только от текущего состояния:
Или, другими словами, вся информация о будущем состоянии заключена в текущем состоянии.
В задачах RL..