Поскольку среда меняется с вероятностью, она динамична.

В марковском процессе принятия решений вероятности, заданные p, полностью характеризуют динамику среды. значение состояния и вознаграждения зависит только от непосредственно предшествующего состояния и действия.

Общее правило, которому мы следуем, состоит в том, что ничто не может быть изменено произвольно агентом и считается частью среды.

Сигнал вознаграждения — это ваш способ сообщить роботу, чего вы от него хотите, а не как вы этого хотите.

одним из примеров непрерывных задач является контроль температуры, потому что температура продолжает расти.

при использовании скидки ожидаемый доход от продолжающейся задачи конечен

пример Эпизодических задач - игры

Примером эпизодических задач является управление сервером путем планирования с учетом приоритета.