Поскольку среда меняется с вероятностью, она динамична.
В марковском процессе принятия решений вероятности, заданные p, полностью характеризуют динамику среды. значение состояния и вознаграждения зависит только от непосредственно предшествующего состояния и действия.
Общее правило, которому мы следуем, состоит в том, что ничто не может быть изменено произвольно агентом и считается частью среды.
Сигнал вознаграждения — это ваш способ сообщить роботу, чего вы от него хотите, а не как вы этого хотите.
одним из примеров непрерывных задач является контроль температуры, потому что температура продолжает расти.
при использовании скидки ожидаемый доход от продолжающейся задачи конечен
пример Эпизодических задач - игры
Примером эпизодических задач является управление сервером путем планирования с учетом приоритета.