Публикации по теме 'q-learning'


Быстрая скидка на сумму вознаграждений
Некоторые из новых алгоритмов обучения с подкреплением где-то в своей функции вознаграждения используют дисконтированную сумму вознаграждений. Я реализовал подход, который резко сократил время обучения моих моделей машинного обучения. Эти реализации включают функцию tf.scan , которая перебирает каждое значение вознаграждения для вычисления его дисконтированной суммы. discount_factor = 0.99 discounted_sum_rewards = tf.scan(lambda agg, x: discount_factor * agg + x, rewards,..