Публикации по теме 'stochastic-policy'


Когда стохастическая политика лучше детерминированной
Почему мы позволяем случайности диктовать наш выбор действий в обучении с подкреплением Если вы привыкли к детерминированным политикам принятия решений (например, как в Глубоком Q-обучении ), необходимость и использование стохастических политик могут ускользнуть от вас. В конце концов, детерминированные политики предлагают удобное отображение состояния-действия π:s ↦ a , в идеале даже оптимальное отображение (то есть, если все уравнения Беллмана выучены в совершенстве )...