Ключевой темой искусственного интеллекта является последовательное принятие решений. Обучение с подкреплением вдохновлено поведенческой психологией; он предлагает формальную основу для решения этой проблемы. Основная идея - обучение, взаимодействуя с окружающей средой, как биологический агент. Речь идет о решении, основанном на опыте, последовательности действий для достижения цели в неопределенной среде. Правительства (США, Великобритания и т. Д.) И крупные технологические компании (Facebook, Apple и т. Д.) Инвестируют в искусственный интеллект. Здесь были упомянуты 10 реальных приложений обучения с подкреплением, а также другие отрасли, такие как Энергетика. (Нефть, газ и возобновляемые источники энергии) для построения устойчивого будущего.

В отличие от глубокого обучения, которое требует огромного количества данных, обучение с подкреплением должно уметь учиться на скалярном сигнале вознаграждения, который часто бывает разреженным, шумным и запаздывающим. Другая отличительная особенность заключается в том, что большинство алгоритмов глубокого обучения предполагают, что выборки данных независимы, тогда как обучение с подкреплением (RL) обычно сталкивается с последовательностью сильно коррелированных состояний.

Некоторые основные элементы обучения с подкреплением:

  • Агент: основное свойство задачи обучения с подкреплением (робот ходить или агент учится водить машину); Агенты обучения с подкреплением наблюдают и исследуют окружающую среду, чтобы учиться.
  • Состояние: положение агента меняется при перемещении агента.
  • Среда: область обучения агента; что агент наблюдает, чтобы изучить различные позиции в окружающей среде, представляют состояние
  • Действие: выбор действия агента в состоянии; это означает, что если действие, предпринятое агентами, правильное, оно получает положительное вознаграждение.
  • Награда: приз за правильное или неправильное действие. Правильные действия приводят к положительным результатам, а неправильные шаги - к отрицательным.

Когда агент терпит неудачу и получает отрицательное вознаграждение, он учится на нем, а затем меняет и модифицирует свои действия, чтобы выбрать правильное действие. Таким образом, агент пытается уклониться от действий, которые приводят к отрицательному вознаграждению для тех, которые приводят к положительному вознаграждению.

Перед действием агент использует стратегию, чтобы решить, что делать в различных состояниях; Существует несколько стратегий обучения с подкреплением, известных как политики.

  • Цель: когда агент исследует среду, ему есть чему поучиться, что и является его целью.
  • Фактор скидки (функция вознаграждения): определяет, насколько агенты заботятся о вознаграждениях в будущем; этот коэффициент обычно устанавливается равным 0,9.

Признание обучения с подкреплением:

Проблема должна включать некоторые или все элементы, упомянутые выше. Для некоторых я имею в виду, когда окружающая среда неизвестна; в этих случаях агент настроен на выполнение предсказания без использования модели. Это означает, что он пытается предсказать следующее действие в состоянии, не зная, как выглядит среда. Второй способ обучения - это метод прогнозирования на основе модели, в отличие от Model-Free, когда агент учится с полным знанием окружающей среды.

Например, вы начинаете изучать игру на скрипке, на первом этапе вы не знаете, где находится какая-либо заметка на доске, вы узнаете больше о положении и о том, как держать скрипку и грести, и изучаете новые способы навигации по стилям. . Таким образом, если вы предпримете новое действие, вы изучите среду, свободную от моделей.

С другой стороны, вы умеете писать песню с нотами; если вы предпримете новое действие для создания нового музыкального листа, такого как Бетховен и т. д., вы изучите среду, основанную на модели.

В обоих действиях ваше действие приводит к вознаграждению, которое может быть положительным или отрицательным. Эта награда поможет вам в следующем действии. Вот что происходит: обучение с подкреплением работает.

Эпизодические задачи: когда агенты выполняют свою миссию (цель), они прекращают обучение, или, другими словами, задачи, которые имеют иллюстрированную цель или конечную точку. Они в основном решаются методами, основанными на моделях, потому что они часто бывают короткими или имеют более простую среду для реализации.

Непрерывные задачи: задачи, не имеющие конечной точки; продолжаться вечно. В основном решается безмодельными методами из-за наличия большого пространства окружающей среды.

Награды не приходят сразу после акции:

Фактически, это происходит после набора действий:

Этот набор различных действий, предпринимаемых в разных состояниях перед наградой, известен как эпизод. Таким образом, неудивительно, что агент выполняет множество действий, прежде чем агент выполнит свою задачу и не получит свою последнюю награду (сумму всех наград в конце эпизода). Главное преимущество эпизодов в том, что они помогают нам выбирать действия, которые приводят к лучшему общему вознаграждению.

Марковский процесс принятия решений (MDP):

MDP - это то, как математически представлены задачи обучения с подкреплением; Другими словами, MDP формально описывает окружающую среду.

MDP включает:

  1. Состояния (Si,…, St)
  2. Действия (Ai,…, At)
  3. Награды (R)
  4. Окружающая обстановка
  5. Фактор дисконтирования
  6. Вероятность перехода между состояниями

Уравнение Беллмана используется для решения марковского процесса принятия решений.

Не стесняйтесь обращаться ко мне в LinkedIn.