Публикации по теме 'deep-r-l-explained'
Обзор основных понятий из части 1
ОБЪЯСНЕНИЕ ОБУЧЕНИЯ С ГЛУБОКИМ ПОДКРЕПЛЕНИЕМ — 12
Обзор основных концепций
Обновлены математические обозначения
Этот пост является предисловием к новым частям серии Объяснение глубокого обучения с подкреплением , где мы представим реализацию классических методов обучения с подкреплением, таких как Монте-Карло, SARSA или Q-обучение, среди прочих. . В этом посте мы рассмотрим и обновим математические обозначения, введенные в предыдущих постах.
Испанская версия этого издания..
Обучение по политике против обучения вне политики в обучении с подкреплением
На основе политики: методы на основе политики изучают функцию значения или политику , которая используется для принятия решений непосредственно на основе данных, собранных агентом во время следуя своей нынешней политике. Политика, которую изучает агент, совпадает с той, которую он использует для взаимодействия со средой.
Вне политики: методы вне политики, с другой стороны, изучают функцию значения или политику , используя данные, собранные другой политикой . Изученная политика..