Публикации по теме 'university-of-alberta'
[Личные заметки] Основы обучения с подкреплением — Неделя 2
Поскольку среда меняется с вероятностью, она динамична.
В марковском процессе принятия решений вероятности, заданные p, полностью характеризуют динамику среды. значение состояния и вознаграждения зависит только от непосредственно предшествующего состояния и действия.
Общее правило, которому мы следуем, состоит в том, что ничто не может быть изменено произвольно агентом и считается частью среды.
Сигнал вознаграждения — это ваш способ сообщить роботу, чего вы от него хотите, а не как вы..