Фраза «обучение с подкреплением» поначалу может показаться немного пугающей, но когда мы разберем ее, на самом деле все довольно просто. Начнем с самой фразы. Что значит усилить? Нет, не гуглите уже! Я вам скажу. Это просто означает укреплять или поддерживать что-то. Таким образом, обучение с подкреплением будет означать усиление или поддержку определенного способа обучения. Позвольте мне уточнить.
Обучение с подкреплением — это одна из трех ветвей машинного обучения:
В следующих разделах статьи я расскажу обо всем, что требуется новичку для начала работы с обучением с подкреплением. Так что просто расслабьтесь и наслаждайтесь поездкой!
Простое определение обучения с подкреплением
Это тип машинного обучения, в котором агент находится в неизвестной среде и имеет неизвестную цель. В отсутствие набора данных агент учится, получая вознаграждение за хорошее действие и наказание за плохое действие.
Когда агент выполняет действие, среда возвращается в состояние, и агент получает соответствующую обратную связь, если его действие привело к хорошему или плохому состоянию. Позвольте мне привести вам быстрый пример.
Рассмотрим агента в среде. Скажем, есть пожар, и в окружающей среде присутствуют огнетушитель и гаечный ключ.
Целевое состояние здесь состоит в том, чтобы эффективно потушить пожар. Давайте посмотрим, как агент решает проблему, используя обучение с подкреплением.
Состояние 1:
Изначально агент ничего не знает о последствиях своих действий. Допустим, агент приближается к огню. Да, я знаю, что это худший из возможных вариантов, но агент этого не знает. Чтобы понять, что приближение к огню опасно, агент должен приблизиться к нему, получить травму (отрицательное вознаграждение) и осознать, что это неправильно.
Еще один параметр, который следует учитывать, — это величина того, насколько хорошим или плохим является решение. Здесь подходить к огню — очень плохое решение, поэтому наказывается соответственно 3 предупреждениями. Теперь агент знает, что это плохое решение.
Состояние 2
Теперь агент решает пойти к гаечному ключу. Выполнение этого действия не причиняет вреда, но все же считается плохим решением, потому что цель состоит в том, чтобы потушить огонь, и гаечный ключ не поможет в этом. Так что его снова наказывают, но менее строго, чем раньше, всего с 1 предупреждением.
Состояние 3
Теперь единственным оставшимся объектом является огнетушитель, который является правильным выбором. Таким образом, агент получает 2 очка. Агент узнает, что в такой ситуации огнетушитель — правильное решение.
Состояние 4
Теперь предположим, что агент берет огнетушитель и идет к гаечному ключу. Опять же, это не наносит вреда агенту, но все равно считается плохим решением. Помните, наша цель — эффективно потушить пожар. Так агент наказывается одним предупреждением.
Состояние 5
Агент, наконец, движется к огню с огнетушителем и получает 3 очка. Так работает обучение с подкреплением. В отличие от обучения с учителем, где помеченный набор данных указывает, какое действие следует предпринять, здесь агент учится, используя метод проб и ошибок.
Чтобы работать хорошо, он должен терпеть неудачи, учиться на своих ошибках и не повторять их. Звучит философски, верно? Некоторые на самом деле считают, что агент аналогичен ребенку, а мир аналогичен окружающей среде, а процесс обучения с подкреплением — это то, как ребенок растет.
Теперь давайте разберемся в различиях между тремя ветвями машинного обучения.
Обучение с учителем, обучение без учителя и обучение с подкреплением
Если вы хотите узнать больше о методах обучения с учителем и без учителя, это хорошие места для начала — Обучение с учителем и Обучение без учителя.
Теперь, когда мы понимаем разницу между тремя типами машинного обучения, давайте немного углубимся в обучение с подкреплением. (PS: не волнуйтесь, я буду максимально простым)
Вот некоторые важные технические термины, которые используются в области обучения с подкреплением.
- Агент — это объект, который обучается, взаимодействуя с окружающей средой.
- Среда — мир, с которым может взаимодействовать агент.
- Действие — жесты, которые агент может выполнять в среде.
- Состояние — дискретное состояние среды.
- Политика — механизм, используемый агентом для выбора следующего действия на основе текущего состояния среды.
- Награда – немедленная положительная обратная связь, предоставляемая агенту, которая указывает на правильность его предыдущего действия.
- Ценность — это похоже на долгосрочную награду, которая достигается за счет нескольких жертв в краткосрочной перспективе.
- Значение действия — аналогично значению, но этот параметр также учитывает текущее действие.
Если вы хотите узнать больше об этих терминах, это хорошее место для начала — Условия RL.
Марковский процесс принятия решений
Любой метод машинного обучения, включая обучение с подкреплением, требует математической подготовки для подтверждения теоретической интуиции. Именно здесь вступает в действие MDP или Марковский процесс принятия решений.
MDP используется для создания математической основы для принятия решений в среде. Он представляет действия, состояния и значения как функции, которые можно использовать для организации своего рода политики и принятия соответствующих решений. Чтобы узнать больше о математике, стоящей за этим, вот отличное чтение — MDP.
Применение обучения с подкреплением
- Обработка естественного языка. НЛП — это категория машинного обучения, которая работает с текстовыми и аудиоданными. Обучение с подкреплением широко используется для обобщения тем, создания чат-ботов, которые требуют имитации человека путем принятия последовательных решений для ответа на сообщение.
- Робототехника. Многие отрасли работают над обучением роботов с помощью методологии обучения с подкреплением, позволяя роботу взаимодействовать с системой и учиться.
- Здравоохранение. Динамические режимы лечения или DTR включают последовательное лечение, в котором используется обучение с подкреплением для правильной диагностики пациента.
- Игры. Агентов обучают играть в такие игры, как шахматы, и методом проб и ошибок они учатся, взаимодействуя с окружающей средой.
- Трейдинг и маркетинг.Обучение с подкреплением применяется и в финансовой сфере. Система используется для принятия решений по составлению бюджета, увеличению размера прибыли и проведению маркетинговых кампаний.
Проблемы в использовании обучения с подкреплением
- Это очень трудоемкая задача по сравнению с другими формами обучения, поскольку она включает в себя метод проб и ошибок.
- Если имеется достаточно данных, эффективно использовать контролируемое или неконтролируемое обучение.
- Это процесс, требующий времени, чтобы обучить агента в приемлемом состоянии.
- Обучение с подкреплением следует использовать только тогда, когда мы можем позволить себе совершать ошибки
- Это не работает, когда предоставляемые данные многомерны
Заключение
Хотя обучение с подкреплением менее популярно, чем его собратья, оно обладает огромным потенциалом, который может быть прибыльным при правильном использовании. Я надеюсь, что эта статья помогла вам создать прочную основу для RL. Если вы хотите узнать больше об алгоритмах RL, вы можете обратиться сюда — RL
Полное раскрытие: я работаю на https://www.ml-concepts.com/, и эта статья была впервые опубликована там.