Обучение с подкреплением — это своего рода машинное обучение, при котором оператор узнает, как и когда реагировать в данной среде, выполняя определенные действия и наблюдая за их результатами. Мы даже можем увидеть большой прогресс в этой замечательной области исследований в последние десятилетия. DeepMind и обучающая архитектура Deep Q в 2014 году, AlphaGo, победившая мастера игры в го в 2016 году, OpenAI и PPO в 2017 году и другие — это лишь несколько примеров.

Обучение с подкреплением основано на предположении, что оператор может получать знания из своей среды, взаимодействуя с ней и получая стимулы для совершения действий. Все встречи с окружающей средой дают нам возможность учиться через наше взаимодействие с миром.

Пример:

Считайте себя маленьким малышом на кухне. Вы замечаете огонь и решаете подойти к нему. Это приятно, это бодрит, и у вас улучшается настроение. Вы понимаете, что огонь — это хорошо. После этого вы пытаетесь положить руку на огонь. Ой! Это заставляет вашу руку гореть. Вы только что узнали, что огонь полезен, если смотреть на него с безопасного расстояния, поскольку он доставляет удовольствие. Однако вы будете сожжены, если подойдете слишком близко к этому.

Люди учатся, взаимодействуя друг с другом. Обучение с подкреплением — это просто вычислительный метод обучения, основанного на действиях. Ваша система узнает, как и когда вести себя естественно с миром с помощью обучения с подкреплением, которое влечет за собой действия и наблюдение за тем, что происходит — хотя это определенно намного больше, чем просто это.

Что такое обучение с подкреплением?

Обучение с подкреплением (RL) — это метод машинного обучения, который концентрируется на использовании процедуры проб и ошибок для обучения алгоритма. При каждом действии алгоритм (агент) исследует существующее условие (состояние), действует соответствующим образом и, следовательно, получает входные данные (вознаграждение) из контекста. Хорошая обратная связь была бы способом поощрения (в том смысле, в каком мы ее понимаем), тогда как отрицательный ответ на самом деле является методом наказания за принятие неправильного решения. Путем нескольких усилий и ошибок алгоритм RL понимает, как и где работать наилучшим образом. Так называемое длительное преимущество связано с обучением методом проб и ошибок. Это основная цель, которой оператор учится на бесчисленных ошибках, хорошо взаимодействуя с контекстом. Алгоритму даются краткосрочные вознаграждения, которые складываются в кумулятивную долгосрочную отдачу.

В результате основная цель современного обучения с подкреплением — определить идеальную последовательность выбора, которая позволяет оператору решать проблемы, максимизируя долгосрочный стимул. А также то, что последовательность согласованных действий приобретается взаимодействием с природой и контролем стимулов в каждом состоянии.

Многие предприятия, особенно интернет-реклама или электронная коммерция, банковское дело, биотехнологии и даже производство, используют обучение с подкреплением. Давайте более подробно рассмотрим каждый из этих сценариев.

  1. Рекомендация новостей, основанная на персонализации. Благодаря изучению данных об интересах, опыте и моделях поведения клиентов в Интернете машинное обучение позволило организациям адаптировать потребительский опыт в любом масштабе. Между тем, предложение определенных типов материалов, таких как интернет-новости, по-прежнему является сложной задачей. Новостные функции по своей природе динамичны и быстро устаревают. Выбор темы также колеблется. Исследователь использовал методологию прогнозирования на основе Deep Q-Learning, которая учитывает как настоящие, так и будущие преимущества, а также отзывы пользователей, а не данные по кликам.
  2. Игровая персонализация: моделирование пользователей используется для персонализации игрового процесса, чтобы повысить удовольствие игроков. Модель игрока — это концептуальное представление действий игрока в игре. Область, цель, индивидуальность, сюжет, саундтрек и звук, игровая механика, увеличение сложности и объединение пользователей — все это адаптируемые игровые аспекты (в многопользовательских играх). Оптимизация игрового процесса в реальном времени возможна с помощью RL. Исследователи демонстрируют возможности этой техники машинного обучения на примере Pong, классической аркадной игры прошлого века, в обучении с подкреплением для настройки игры на периферийных устройствах.
  3. Торговля в финансовой отрасли: для автоматизации торговых процессов финансовые организации развертывают платформы на основе ИИ. Для прогнозирования цен на акции в этих системах обычно используется обучение с учителем. Чего они не могут сделать, так это решить, покупать, продавать или сохранять акции в данной ситуации. Трейдеры по-прежнему должны создавать бизнес-правила следования за трендом, на основе шаблонов или против тренда, чтобы направлять системные решения. Необходима согласованность, поскольку аналитики могут по-разному описывать закономерности и условия подтверждения.
  4. Обучение беспилотным автомобилям: было показано, что обучение с подкреплением является отличным способом для разработки сетей глубокого обучения, которые являются мозгом беспилотных автомобилей. Британская фирма Wayve утверждает, что первой произвела беспилотный автомобиль, использующий RL. Чтобы научить беспилотные системы вождению, разработчики обычно создают большое количество руководств, написанных от руки. В результате циклы разработки были медленными. Эксперты Wayve пошли в противоположном направлении. Они просто потратили 15–20 минут, обучая автомобиль следовать по полосе с нуля методом проб и ошибок. Когда алгоритм допустил ошибку, и автомобиль отклонился от курса во время эксперимента, вмешался человек-водитель, находившийся в транспортном средстве. За расстояние, пройденное без помех, алгоритм был вознагражден. При таком подходе автомобиль научился безопасно ездить в режиме онлайн с каждым опытом исследования.

Заключение

Несмотря на трудности обучения, обучение с подкреплением оказалось полезным в реальных коммерческих ситуациях. В общем, RL полезен при поиске лучших ответов в постоянно меняющемся контексте.

Обучение с подкреплением используется при автоматизации процессов, управлении и обслуживании машин и оборудования, а также при оптимизации использования энергии. Возможности обучения с подкреплением для повышения эффективности систем обучения на основе ИИ также были признаны банковской отраслью. Хотя обучение роботов методом проб и ошибок занимает много времени, оно позволяет роботам лучше оценивать реальные обстоятельства, применять свои навыки для выполнения задач и правильно реагировать на непредвиденные результаты. Кроме того, RL предлагает игрокам электронной коммерции альтернативы для оптимизации доходов, предотвращения мошенничества и настройки потребительского опыта.