Публикации по теме 'sars'
Искусственный интеллект: 6. Q Learning и SARS в Maze в OpenAI
Код: GitRepo
Используемые гиперпараметры:
- Скорость обучения
- Учетная ставка
- Скорость исследования
Скорость обучения [0, 1]:
Скорость обучения — это скорость обучения или количество информации, которую мы переносим из текущей итерации в Q-таблицу.
Ставка скидки [0, 1]:
Ставка дисконтирования — это сумма скидки, которую мы даем q’(s’, a’) во время правила обновления.
Скорость исследования [0, 1]:
Обычно мы должны предпринять максимально ценное действие в..