Публикации по теме 'sequential-learning'


Оптимистичное Q-Learning
Q-Learning - один из самых известных алгоритмов обучения с подкреплением (RL). В этом рассказе мы обсудим важную часть алгоритма: стратегию исследования . Но прежде давайте начнем с некоторых вводных понятий и обозначений. Обучение с подкреплением (RL) RL - это область машинного обучения, в которой агент подключается к среде посредством восприятия состояний , выбора действий и получение вознаграждений . На каждом шаге агент наблюдает за состоянием, выбирает и выполняет..