Публикации по теме 'policy-iteration'


Марковский процесс принятия решений и методы динамического программирования для RL
Марковский процесс принятия решений RL — это набор методов, которые учатся оптимально вести себя в среде, тогда как Марковские процессы принятия решений (MDP) — это структура, используемая для математической формулировки задач RL. В задачах RL все состояния обладают «марковским» свойством, относящимся к тому факту, что будущее состояние зависит только от текущего состояния: Или, другими словами, вся информация о будущем состоянии заключена в текущем состоянии. В задачах RL..