Все, что вам нужно знать об обучении с подкреплением

Фраза «обучение с подкреплением» поначалу может показаться немного пугающей, но когда мы разберем ее, на самом деле все довольно просто. Начнем с самой фразы. Что значит усилить? Нет, не гуглите уже! Я вам скажу. Это просто означает укреплять или поддерживать что-то. Таким образом, обучение с подкреплением будет означать усиление или поддержку определенного способа обучения. Позвольте мне уточнить.

Обучение с подкреплением — это одна из трех ветвей машинного обучения:

В следующих разделах статьи я расскажу обо всем, что требуется новичку для начала работы с обучением с подкреплением. Так что просто расслабьтесь и наслаждайтесь поездкой!

Простое определение обучения с подкреплением

Это тип машинного обучения, в котором агент находится в неизвестной среде и имеет неизвестную цель. В отсутствие набора данных агент учится, получая вознаграждение за хорошее действие и наказание за плохое действие.

Когда агент выполняет действие, среда возвращается в состояние, и агент получает соответствующую обратную связь, если его действие привело к хорошему или плохому состоянию. Позвольте мне привести вам быстрый пример.

Рассмотрим агента в среде. Скажем, есть пожар, и в окружающей среде присутствуют огнетушитель и гаечный ключ.

Целевое состояние здесь состоит в том, чтобы эффективно потушить пожар. Давайте посмотрим, как агент решает проблему, используя обучение с подкреплением.

Состояние 1:

Изначально агент ничего не знает о последствиях своих действий. Допустим, агент приближается к огню. Да, я знаю, что это худший из возможных вариантов, но агент этого не знает. Чтобы понять, что приближение к огню опасно, агент должен приблизиться к нему, получить травму (отрицательное вознаграждение) и осознать, что это неправильно.

Еще один параметр, который следует учитывать, — это величина того, насколько хорошим или плохим является решение. Здесь подходить к огню — очень плохое решение, поэтому наказывается соответственно 3 предупреждениями. Теперь агент знает, что это плохое решение.

Состояние 2

Теперь агент решает пойти к гаечному ключу. Выполнение этого действия не причиняет вреда, но все же считается плохим решением, потому что цель состоит в том, чтобы потушить огонь, и гаечный ключ не поможет в этом. Так что его снова наказывают, но менее строго, чем раньше, всего с 1 предупреждением.

Состояние 3

Теперь единственным оставшимся объектом является огнетушитель, который является правильным выбором. Таким образом, агент получает 2 очка. Агент узнает, что в такой ситуации огнетушитель — правильное решение.

Состояние 4

Теперь предположим, что агент берет огнетушитель и идет к гаечному ключу. Опять же, это не наносит вреда агенту, но все равно считается плохим решением. Помните, наша цель — эффективно потушить пожар. Так агент наказывается одним предупреждением.

Состояние 5

Агент, наконец, движется к огню с огнетушителем и получает 3 очка. Так работает обучение с подкреплением. В отличие от обучения с учителем, где помеченный набор данных указывает, какое действие следует предпринять, здесь агент учится, используя метод проб и ошибок.

Чтобы работать хорошо, он должен терпеть неудачи, учиться на своих ошибках и не повторять их. Звучит философски, верно? Некоторые на самом деле считают, что агент аналогичен ребенку, а мир аналогичен окружающей среде, а процесс обучения с подкреплением — это то, как ребенок растет.

Теперь давайте разберемся в различиях между тремя ветвями машинного обучения.

Обучение с учителем, обучение без учителя и обучение с подкреплением

Если вы хотите узнать больше о методах обучения с учителем и без учителя, это хорошие места для начала — Обучение с учителем и Обучение без учителя.

Теперь, когда мы понимаем разницу между тремя типами машинного обучения, давайте немного углубимся в обучение с подкреплением. (PS: не волнуйтесь, я буду максимально простым)

Вот некоторые важные технические термины, которые используются в области обучения с подкреплением.

Агент — это объект, который обучается, взаимодействуя с окружающей средой.
Среда — мир, с которым может взаимодействовать агент.
Действие — жесты, которые агент может выполнять в среде.
Состояние — дискретное состояние среды.
Политика — механизм, используемый агентом для выбора следующего действия на основе текущего состояния среды.
Награда – немедленная положительная обратная связь, предоставляемая агенту, которая указывает на правильность его предыдущего действия.
Ценность — это похоже на долгосрочную награду, которая достигается за счет нескольких жертв в краткосрочной перспективе.
Значение действия — аналогично значению, но этот параметр также учитывает текущее действие.

Если вы хотите узнать больше об этих терминах, это хорошее место для начала — Условия RL.

Марковский процесс принятия решений

Любой метод машинного обучения, включая обучение с подкреплением, требует математической подготовки для подтверждения теоретической интуиции. Именно здесь вступает в действие MDP или Марковский процесс принятия решений.

MDP используется для создания математической основы для принятия решений в среде. Он представляет действия, состояния и значения как функции, которые можно использовать для организации своего рода политики и принятия соответствующих решений. Чтобы узнать больше о математике, стоящей за этим, вот отличное чтение — MDP.

Применение обучения с подкреплением

Обработка естественного языка. НЛП — это категория машинного обучения, которая работает с текстовыми и аудиоданными. Обучение с подкреплением широко используется для обобщения тем, создания чат-ботов, которые требуют имитации человека путем принятия последовательных решений для ответа на сообщение.
Робототехника. Многие отрасли работают над обучением роботов с помощью методологии обучения с подкреплением, позволяя роботу взаимодействовать с системой и учиться.
Здравоохранение. Динамические режимы лечения или DTR включают последовательное лечение, в котором используется обучение с подкреплением для правильной диагностики пациента.
Игры. Агентов обучают играть в такие игры, как шахматы, и методом проб и ошибок они учатся, взаимодействуя с окружающей средой.
Трейдинг и маркетинг.Обучение с подкреплением применяется и в финансовой сфере. Система используется для принятия решений по составлению бюджета, увеличению размера прибыли и проведению маркетинговых кампаний.

Проблемы в использовании обучения с подкреплением

Это очень трудоемкая задача по сравнению с другими формами обучения, поскольку она включает в себя метод проб и ошибок.
Если имеется достаточно данных, эффективно использовать контролируемое или неконтролируемое обучение.
Это процесс, требующий времени, чтобы обучить агента в приемлемом состоянии.
Обучение с подкреплением следует использовать только тогда, когда мы можем позволить себе совершать ошибки
Это не работает, когда предоставляемые данные многомерны

Заключение

Хотя обучение с подкреплением менее популярно, чем его собратья, оно обладает огромным потенциалом, который может быть прибыльным при правильном использовании. Я надеюсь, что эта статья помогла вам создать прочную основу для RL. Если вы хотите узнать больше об алгоритмах RL, вы можете обратиться сюда — RL

Полное раскрытие: я работаю на https://www.ml-concepts.com/, и эта статья была впервые опубликована там.