Публикации по теме 'sequential-learning'
Оптимистичное Q-Learning
Q-Learning - один из самых известных алгоритмов обучения с подкреплением (RL).
В этом рассказе мы обсудим важную часть алгоритма: стратегию исследования . Но прежде давайте начнем с некоторых вводных понятий и обозначений.
Обучение с подкреплением (RL)
RL - это область машинного обучения, в которой агент подключается к среде посредством восприятия состояний , выбора действий и получение вознаграждений . На каждом шаге агент наблюдает за состоянием, выбирает и выполняет..