Публикации по теме 'q-learning'
Быстрая скидка на сумму вознаграждений
Некоторые из новых алгоритмов обучения с подкреплением где-то в своей функции вознаграждения используют дисконтированную сумму вознаграждений. Я реализовал подход, который резко сократил время обучения моих моделей машинного обучения.
Эти реализации включают функцию tf.scan , которая перебирает каждое значение вознаграждения для вычисления его дисконтированной суммы.
discount_factor = 0.99
discounted_sum_rewards = tf.scan(lambda agg, x: discount_factor * agg + x, rewards,..