Публикации по теме 'university-of-alberta'


[Личные заметки] Основы обучения с подкреплением — Неделя 2
Поскольку среда меняется с вероятностью, она динамична. В марковском процессе принятия решений вероятности, заданные p, полностью характеризуют динамику среды. значение состояния и вознаграждения зависит только от непосредственно предшествующего состояния и действия. Общее правило, которому мы следуем, состоит в том, что ничто не может быть изменено произвольно агентом и считается частью среды. Сигнал вознаграждения — это ваш способ сообщить роботу, чего вы от него хотите, а не как вы..