Публикации по теме 'markov-decision'


Внедрение обучения с подкреплением с использованием процесса принятия решений Маркова [Учебное пособие]
Марковский процесс принятия решений , более известный как MDP , представляет собой подход к обучению с подкреплением для принятия решений в среде gridworld. Среда gridworld состоит из состояний в виде сеток. MDP пытается захватить мир в виде сетки, разделив его на состояния, действия, модели / модели перехода и награды. Решение для MDP называется политикой, и цель состоит в том, чтобы найти оптимальную политику для этой задачи MDP. Таким образом, любая задача обучения с..