Публикации по теме 'deep-r-l-explained'


Обзор основных понятий из части 1
ОБЪЯСНЕНИЕ ОБУЧЕНИЯ С ГЛУБОКИМ ПОДКРЕПЛЕНИЕМ — 12 Обзор основных концепций Обновлены математические обозначения Этот пост является предисловием к новым частям серии Объяснение глубокого обучения с подкреплением , где мы представим реализацию классических методов обучения с подкреплением, таких как Монте-Карло, SARSA или Q-обучение, среди прочих. . В этом посте мы рассмотрим и обновим математические обозначения, введенные в предыдущих постах. Испанская версия этого издания..

Обучение по политике против обучения вне политики в обучении с подкреплением
На основе политики: методы на основе политики изучают функцию значения или политику , которая используется для принятия решений непосредственно на основе данных, собранных агентом во время следуя своей нынешней политике. Политика, которую изучает агент, совпадает с той, которую он использует для взаимодействия со средой. Вне политики: методы вне политики, с другой стороны, изучают функцию значения или политику , используя данные, собранные другой политикой . Изученная политика..