Публикации по теме 'sars'


Искусственный интеллект: 6. Q Learning и SARS в Maze в OpenAI
Код: GitRepo Используемые гиперпараметры: - Скорость обучения - Учетная ставка - Скорость исследования Скорость обучения [0, 1]: Скорость обучения — это скорость обучения или количество информации, которую мы переносим из текущей итерации в Q-таблицу. Ставка скидки [0, 1]: Ставка дисконтирования — это сумма скидки, которую мы даем q’(s’, a’) во время правила обновления. Скорость исследования [0, 1]: Обычно мы должны предпринять максимально ценное действие в..