Публикации по теме 'double-q-learning'


Двойное Q-Learning - легкий способ
Введение в понимание двойного Q-Learning Q-обучение (Watkins, 1989) считается одним из прорывов в алгоритме обучения с подкреплением управления TD. Однако в своей статье Двойное Q-Learning Хадо ван Хасселт объясняет, почему Q-Learning очень плохо работает в некоторых стохастических средах. Он указал, что низкая производительность вызвана большим переоценкой значений действий из-за использования Max Q (s ’, a) в Q-обучении. Чтобы решить эту проблему, он предложил метод двойного..