Ключевой темой искусственного интеллекта является последовательное принятие решений. Обучение с подкреплением вдохновлено поведенческой психологией; он предлагает формальную основу для решения этой проблемы. Основная идея - обучение, взаимодействуя с окружающей средой, как биологический агент. Речь идет о решении, основанном на опыте, последовательности действий для достижения цели в неопределенной среде. Правительства (США, Великобритания и т. Д.) И крупные технологические компании (Facebook, Apple и т. Д.) Инвестируют в искусственный интеллект. Здесь были упомянуты 10 реальных приложений обучения с подкреплением, а также другие отрасли, такие как Энергетика. (Нефть, газ и возобновляемые источники энергии) для построения устойчивого будущего.
В отличие от глубокого обучения, которое требует огромного количества данных, обучение с подкреплением должно уметь учиться на скалярном сигнале вознаграждения, который часто бывает разреженным, шумным и запаздывающим. Другая отличительная особенность заключается в том, что большинство алгоритмов глубокого обучения предполагают, что выборки данных независимы, тогда как обучение с подкреплением (RL) обычно сталкивается с последовательностью сильно коррелированных состояний.
Некоторые основные элементы обучения с подкреплением:
- Агент: основное свойство задачи обучения с подкреплением (робот ходить или агент учится водить машину); Агенты обучения с подкреплением наблюдают и исследуют окружающую среду, чтобы учиться.
- Состояние: положение агента меняется при перемещении агента.
- Среда: область обучения агента; что агент наблюдает, чтобы изучить различные позиции в окружающей среде, представляют состояние
- Действие: выбор действия агента в состоянии; это означает, что если действие, предпринятое агентами, правильное, оно получает положительное вознаграждение.
- Награда: приз за правильное или неправильное действие. Правильные действия приводят к положительным результатам, а неправильные шаги - к отрицательным.
Когда агент терпит неудачу и получает отрицательное вознаграждение, он учится на нем, а затем меняет и модифицирует свои действия, чтобы выбрать правильное действие. Таким образом, агент пытается уклониться от действий, которые приводят к отрицательному вознаграждению для тех, которые приводят к положительному вознаграждению.
Перед действием агент использует стратегию, чтобы решить, что делать в различных состояниях; Существует несколько стратегий обучения с подкреплением, известных как политики.
- Цель: когда агент исследует среду, ему есть чему поучиться, что и является его целью.
- Фактор скидки (функция вознаграждения): определяет, насколько агенты заботятся о вознаграждениях в будущем; этот коэффициент обычно устанавливается равным 0,9.
Признание обучения с подкреплением:
Проблема должна включать некоторые или все элементы, упомянутые выше. Для некоторых я имею в виду, когда окружающая среда неизвестна; в этих случаях агент настроен на выполнение предсказания без использования модели. Это означает, что он пытается предсказать следующее действие в состоянии, не зная, как выглядит среда. Второй способ обучения - это метод прогнозирования на основе модели, в отличие от Model-Free, когда агент учится с полным знанием окружающей среды.
Например, вы начинаете изучать игру на скрипке, на первом этапе вы не знаете, где находится какая-либо заметка на доске, вы узнаете больше о положении и о том, как держать скрипку и грести, и изучаете новые способы навигации по стилям. . Таким образом, если вы предпримете новое действие, вы изучите среду, свободную от моделей.
С другой стороны, вы умеете писать песню с нотами; если вы предпримете новое действие для создания нового музыкального листа, такого как Бетховен и т. д., вы изучите среду, основанную на модели.
В обоих действиях ваше действие приводит к вознаграждению, которое может быть положительным или отрицательным. Эта награда поможет вам в следующем действии. Вот что происходит: обучение с подкреплением работает.
Эпизодические задачи: когда агенты выполняют свою миссию (цель), они прекращают обучение, или, другими словами, задачи, которые имеют иллюстрированную цель или конечную точку. Они в основном решаются методами, основанными на моделях, потому что они часто бывают короткими или имеют более простую среду для реализации.
Непрерывные задачи: задачи, не имеющие конечной точки; продолжаться вечно. В основном решается безмодельными методами из-за наличия большого пространства окружающей среды.
Награды не приходят сразу после акции:
Фактически, это происходит после набора действий:
Этот набор различных действий, предпринимаемых в разных состояниях перед наградой, известен как эпизод. Таким образом, неудивительно, что агент выполняет множество действий, прежде чем агент выполнит свою задачу и не получит свою последнюю награду (сумму всех наград в конце эпизода). Главное преимущество эпизодов в том, что они помогают нам выбирать действия, которые приводят к лучшему общему вознаграждению.
Марковский процесс принятия решений (MDP):
MDP - это то, как математически представлены задачи обучения с подкреплением; Другими словами, MDP формально описывает окружающую среду.
MDP включает:
- Состояния (Si,…, St)
- Действия (Ai,…, At)
- Награды (R)
- Окружающая обстановка
- Фактор дисконтирования
- Вероятность перехода между состояниями
Уравнение Беллмана используется для решения марковского процесса принятия решений.
Не стесняйтесь обращаться ко мне в LinkedIn.