Публикации по тегам stochastic-policy

Публикации по теме 'stochastic-policy'

Когда стохастическая политика лучше детерминированной

Почему мы позволяем случайности диктовать наш выбор действий в обучении с подкреплением Если вы привыкли к детерминированным политикам принятия решений (например, как в Глубоком Q-обучении ), необходимость и использование стохастических политик могут ускользнуть от вас. В конце концов, детерминированные политики предлагают удобное отображение состояния-действия π:s ↦ a , в идеале даже оптимальное отображение (то есть, если все уравнения Беллмана выучены в совершенстве )...

Публикации по теме 'stochastic-policy'

Когда стохастическая политика лучше детерминированной

Вопросы по теме