Для этого есть элегантное описание

«Научитесь принимать правильные последовательности решений». — Эмма Бранскилл

Разорвем фразу. «Узнать» означает, что компьютер заранее не знает, как работает среда. «сделать» означает, что компьютеру необходимо выполнить действие, чтобы что-то сделать. «хорошо» означает, что компьютер получит некоторое вознаграждение, поэтому он будет знать, является ли его действие хорошим или плохим. «последовательность решений» означает, что компьютер будет неоднократно взаимодействовать с окружающей средой. По сути, это похоже на обучение методом проб и ошибок.

Обучение с подкреплением в основном такое же, как обучение человека в неизвестной среде. Давайте посмотрим на простой пример. Родителей ребенка нет дома. Ребенок хочет играть в видеоигры, но не сделал домашнее задание. В сценарии 1 он предпочитает играть в видеоигры. После возвращения родителей они наказывают его. Так ребенок узнает, что если он будет играть в видеоигры, то получит наказание. В сценарии 2 он решает закончить свою домашнюю работу. Когда его родители возвращаются, они дают ему леденец. Поэтому в следующий раз, если тот же сценарий повторится, он решит закончить свою домашнюю работу.

Давайте взглянем на Марковский процесс принятия решений, который является основным процессом принятия решений в обучении с подкреплением:

Агент (он же компьютер) действует по отношению к окружающей среде. Окружение будет давать вам обратную связь. Таким образом, агент будет наблюдать за обратной связью и, возможно, получит какое-то вознаграждение. Вам не кажется, что это очень похоже на контролируемое обучение? При обучении с учителем компьютер получает истинные метки. При обучении с подкреплением вознаграждение получает компьютер. Однако некоторые отличия заключаются в том, что обратная связь задерживается, а действия агента влияют на получаемую обратную связь. Поскольку компьютер должен действовать методом проб и ошибок, на это требуется время. Кроме того, цель агента состоит в том, чтобы предпринимать действия в среде, чтобы максимизировать совокупное вознаграждение. Поэтому иногда агент жертвует немедленным вознаграждением, чтобы получить более долгосрочное вознаграждение.