Публикации по теме 'offline-learning'


Учимся на примерах: Монте-Карло
Представленный здесь код помогает понять обсуждаемые идеи. Поэтому, возможно, я удалил некоторые детали реализации. Полный код можно найти в моем репозитории GitHub . Учимся на примерах. Методы DP, обсуждавшиеся ранее , используют модель распределения для вычисления функции оптимального значения и оптимальной политики. В этом посте мы покончим с такими моделями. Во многих приложениях легче получить образцы взаимодействий агента и среды, чем точную модель, отражающую динамику..