Введение в обучение с подкреплением

Ключевой темой искусственного интеллекта является последовательное принятие решений. Обучение с подкреплением вдохновлено поведенческой психологией; он предлагает формальную основу для решения этой проблемы. Основная идея - обучение, взаимодействуя с окружающей средой, как биологический агент. Речь идет о решении, основанном на опыте, последовательности действий для достижения цели в неопределенной среде. Правительства (США, Великобритания и т. Д.) И крупные технологические компании (Facebook, Apple и т. Д.) Инвестируют в искусственный интеллект. Здесь были упомянуты 10 реальных приложений обучения с подкреплением, а также другие отрасли, такие как Энергетика. (Нефть, газ и возобновляемые источники энергии) для построения устойчивого будущего.

В отличие от глубокого обучения, которое требует огромного количества данных, обучение с подкреплением должно уметь учиться на скалярном сигнале вознаграждения, который часто бывает разреженным, шумным и запаздывающим. Другая отличительная особенность заключается в том, что большинство алгоритмов глубокого обучения предполагают, что выборки данных независимы, тогда как обучение с подкреплением (RL) обычно сталкивается с последовательностью сильно коррелированных состояний.

Некоторые основные элементы обучения с подкреплением:

Агент: основное свойство задачи обучения с подкреплением (робот ходить или агент учится водить машину); Агенты обучения с подкреплением наблюдают и исследуют окружающую среду, чтобы учиться.
Состояние: положение агента меняется при перемещении агента.
Среда: область обучения агента; что агент наблюдает, чтобы изучить различные позиции в окружающей среде, представляют состояние
Действие: выбор действия агента в состоянии; это означает, что если действие, предпринятое агентами, правильное, оно получает положительное вознаграждение.
Награда: приз за правильное или неправильное действие. Правильные действия приводят к положительным результатам, а неправильные шаги - к отрицательным.

Когда агент терпит неудачу и получает отрицательное вознаграждение, он учится на нем, а затем меняет и модифицирует свои действия, чтобы выбрать правильное действие. Таким образом, агент пытается уклониться от действий, которые приводят к отрицательному вознаграждению для тех, которые приводят к положительному вознаграждению.

Перед действием агент использует стратегию, чтобы решить, что делать в различных состояниях; Существует несколько стратегий обучения с подкреплением, известных как политики.

Цель: когда агент исследует среду, ему есть чему поучиться, что и является его целью.
Фактор скидки (функция вознаграждения): определяет, насколько агенты заботятся о вознаграждениях в будущем; этот коэффициент обычно устанавливается равным 0,9.

Признание обучения с подкреплением:

Проблема должна включать некоторые или все элементы, упомянутые выше. Для некоторых я имею в виду, когда окружающая среда неизвестна; в этих случаях агент настроен на выполнение предсказания без использования модели. Это означает, что он пытается предсказать следующее действие в состоянии, не зная, как выглядит среда. Второй способ обучения - это метод прогнозирования на основе модели, в отличие от Model-Free, когда агент учится с полным знанием окружающей среды.

Например, вы начинаете изучать игру на скрипке, на первом этапе вы не знаете, где находится какая-либо заметка на доске, вы узнаете больше о положении и о том, как держать скрипку и грести, и изучаете новые способы навигации по стилям. . Таким образом, если вы предпримете новое действие, вы изучите среду, свободную от моделей.

С другой стороны, вы умеете писать песню с нотами; если вы предпримете новое действие для создания нового музыкального листа, такого как Бетховен и т. д., вы изучите среду, основанную на модели.

В обоих действиях ваше действие приводит к вознаграждению, которое может быть положительным или отрицательным. Эта награда поможет вам в следующем действии. Вот что происходит: обучение с подкреплением работает.

Эпизодические задачи: когда агенты выполняют свою миссию (цель), они прекращают обучение, или, другими словами, задачи, которые имеют иллюстрированную цель или конечную точку. Они в основном решаются методами, основанными на моделях, потому что они часто бывают короткими или имеют более простую среду для реализации.

Непрерывные задачи: задачи, не имеющие конечной точки; продолжаться вечно. В основном решается безмодельными методами из-за наличия большого пространства окружающей среды.

Награды не приходят сразу после акции:

Фактически, это происходит после набора действий:

Этот набор различных действий, предпринимаемых в разных состояниях перед наградой, известен как эпизод. Таким образом, неудивительно, что агент выполняет множество действий, прежде чем агент выполнит свою задачу и не получит свою последнюю награду (сумму всех наград в конце эпизода). Главное преимущество эпизодов в том, что они помогают нам выбирать действия, которые приводят к лучшему общему вознаграждению.

Марковский процесс принятия решений (MDP):

MDP - это то, как математически представлены задачи обучения с подкреплением; Другими словами, MDP формально описывает окружающую среду.

MDP включает:

Состояния (Si,…, St)
Действия (Ai,…, At)
Награды (R)
Окружающая обстановка
Фактор дисконтирования
Вероятность перехода между состояниями

Уравнение Беллмана используется для решения марковского процесса принятия решений.

Не стесняйтесь обращаться ко мне в LinkedIn.

Введение в обучение с подкреплением

Признание обучения с подкреплением:

Марковский процесс принятия решений (MDP):

Вопросы по теме