Основы обучения с подкреплением

Существует 3 основных типа машинного обучения: контролируемое, неконтролируемое и обучение с подкреплением (RL). В этой краткой статье мы сосредоточимся на RL.

Что такое обучение с подкреплением?

RL — это метод машинного обучения, связанный с тем, как программные агенты должны выполнять действия в различных средах. Цель состоит в том, чтобы максимизировать большую часть или, по крайней мере, часть совокупного вознаграждения. Этот метод обычно учится путем непосредственного взаимодействия с окружающей средой. Агент RL учится на действиях, а не на явном обучении, и действия выбираются на основе прошлого опыта, а также на основе потенциального нового выбора. Следовательно, мы можем назвать это своего рода методом машинного обучения на основе обратной связи, в котором агент учится вести себя в среде, выполняя действия и видя результаты действий. Всякий раз, когда действие хорошее, агент получает положительную обратную связь, а за каждое плохое действие агент получает штраф. Конечной целью агента является повышение производительности за счет получения максимального положительного вознаграждения.

Каковы плюсы и минусы обучения с подкреплением?

Плюсы:

RL очень похож на методы человеческого обучения, что означает, что в большинстве случаев можно достичь большей точности. Этот метод можно использовать для решения некоторых очень сложных задач более эффективно, чем обычные методы машинного обучения. RL может исправлять свои ошибки в процессе обучения, и в большинстве случаев эти ошибки не повторяются. Более того, модели RL могут учиться на собственном опыте, когда набор данных недоступен. RL может быть особенно полезен, когда единственным способом сбора информации является взаимодействие с окружающей средой. В результате благодаря своей настойчивости модели RL могут превзойти людей во многих задачах.

Минусы:

RL не может быть лучшим выбором при решении некоторых простых задач, где также важна интерпретация. Он также требует больших вычислительных ресурсов и требует большого количества данных для правильного выполнения задач. Другим недостатком является то, что модели RL могут быть неправильным выбором, когда скорость важна в конкретных задачах, поскольку эти модели требуют много времени для получения результатов, и если что-то пойдет не так в процессе обучения, исправление ошибок может занять много времени.

Когда нам следует рассмотреть возможность применения обучения с подкреплением (а когда не следует)?

RL может успешно применяться при решении задач только при выполнении определенных условий. Вот некоторые из них:

Функция вознаграждения может быть четко определена. К сожалению, это может быть не всегда так, поскольку во многих ситуациях математическая формулировка функций вознаграждения может зависеть от многих неизвестных допущений.

Ошибки доступны. Проблема в том, что не все компании могут позволить себе слишком много ошибок, экспериментируя со своими устройствами. Одной из проблем может быть вопрос стоимости для компаний, и, учитывая, что для достижения желаемых результатов успешные модели RL требуют как можно большего количества тренировок, большинство компаний могут не предпочесть RL для многих устройств.

Время вас не беспокоит. Некоторым моделям RL могут потребоваться дни или даже недели для получения результатов, учитывая сложность задачи. Это может вызвать некоторые задержки в производстве, если компания не может позволить себе такой длительный период времени. Таким образом, метод RL, как правило, является хорошим подходом, когда есть достаточно времени для обучения моделей.

В чем разница между контролируемым обучением и обучением с подкреплением?

В отличие от обучения с учителем, в RL используется алгоритм с обратной связью, что означает, что для каждого результата обученный алгоритм обеспечивает обратную связь с моделью. В обучении с учителем как ввод, так и вывод будут доступны для принятия решений, когда учащийся будет обучаться на многих исторических выборочных данных, в то время как в RL последовательное принятие решений играет важную роль, а результаты изучаются в процессе. Кроме того, в отличие от контролируемого обучения, RL обучается как агент обучения, где он работает как система вознаграждения и действия.

Что такое автономное обучение с подкреплением?

Офлайн-обучение — это подход, при котором все данные используются одновременно для построения модели. Алгоритмы автономного подкрепления могут эффективно обучаться, не взаимодействуя с окружающей средой, а также используя огромные объемы зарегистрированных данных. Основное внимание уделяется обучению агентов с помощью зарегистрированных данных без дальнейшего взаимодействия с окружающей средой. Автономное RL может масштабировать подходы сквозного обучения к реальным задачам принятия решений, таким как робототехника.

Как правило, алгоритм обучения предоставляется со статическимнабором данных фиксированного взаимодействия и должен получать наилучшие результаты при использовании этого набора данных. Никаких дополнительных данных или взаимодействия с окружением не предусмотрено.

Каковы плюсы и минусы автономного обучения с подкреплением?

Когда нам следует рассмотреть возможность применения автономного обучения с подкреплением (а когда не следует)?

Оффлайн RL имеет явное преимущество в том, что он быстрее и дешевле по сравнению с онлайн RL, где алгоритм регулярно применяется к данным. Автономное RL часто является лучшим методом, когда мы не можем позволить себе набор данных с интенсивными вычислениями, а время является проблемой.

Однако одним из основных недостатков является то, что пока невозможно найти много ресурсов и сообщества, стоящих за оффлайновым RL. Более того, дальнейшее взаимодействие со средой в автономном RL невозможно, что означает невозможность обновления данных в любое время. Поэтому нам следует рассмотреть возможность применения автономного обучения с подкреплением, когда мы хотим избежать сложности, затрат и нам нужны быстрые результаты. Однако мы не должны использовать автономный метод, когда регулярные обновления данных могут потребоваться из-за характера проблемы.

Есть пример автономного обучения с подкреплением в реальном мире?

Мы можем использовать автономный RL для прогнозирования будущих продаж, а также для прогнозирования цен на акции. Модели RL могут предпринимать действия по определенной цене акции, чтобы максимизировать прибыль. Например, агент RL может решить задачу, держать, покупать или продавать акции. Здесь можно использовать исторические данные, а саму модель можно оценить с помощью рыночных ориентиров.

Основы обучения с подкреплением

Вопросы по теме