Эта статья изначально была написана Дерриком Мвити и размещена в блоге Neptune.

При обучении с подкреплением (RL) агенты обучаются работе с механизмом поощрения и наказания. Агент вознаграждается за правильные ходы и наказывается за неправильные. При этом агент пытается свести к минимуму неправильные ходы и максимизировать правильные.

В этой статье мы рассмотрим некоторые из реальных приложений обучения с подкреплением.

Применение в беспилотных автомобилях

В различных документах предлагалось глубокое обучение с подкреплением для автономного вождения. В беспилотных автомобилях необходимо учитывать различные аспекты, такие как ограничение скорости в разных местах, зоны движения, предотвращение столкновений — и это лишь некоторые из них.

Некоторые из задач автономного вождения, в которых может применяться обучение с подкреплением, включают оптимизацию траектории, планирование движения, динамическое определение пути, оптимизацию контроллера и политику обучения на основе сценариев для автомагистралей.

Например, парковка может быть достигнута путем изучения правил автоматической парковки. Смена полосы движения может быть достигнута с помощью Q-Learning, в то время как обгон может быть реализован путем изучения политики обгона, избегая столкновения и поддерживая после этого постоянную скорость.

AWS DeepRacer — это автономный гоночный автомобиль, разработанный для проверки RL на физической трассе. Он использует камеры для визуализации взлетно-посадочной полосы и модель обучения с подкреплением для управления дроссельной заслонкой и направлением.

Wayve.ai успешно применил обучение с подкреплением для обучения автомобиля вождению за день. Они использовали алгоритм глубокого обучения с подкреплением, чтобы решить задачу следования по полосе. Их сетевая архитектура представляла собой глубокую сеть с 4 свёрточными слоями и 3 полносвязными слоями. В приведенном ниже примере показана задача следования по полосе. Изображение в середине представляет собой перспективу водителя.

Автоматизация отрасли с помощью обучения с подкреплением

В армировании промышленности обучаемые роботы используются для выполнения различных задач. Помимо того, что эти роботы более эффективны, чем люди, они также могут выполнять задачи, которые были бы опасны для людей.

Отличным примером является использование агентов ИИ компанией Deepmind для охлаждения дата-центров Google. Это привело к сокращению затрат энергии на 40%. Центры теперь полностью контролируются системой ИИ без необходимости вмешательства человека. Очевидно, что по-прежнему ведется надзор со стороны специалистов центров обработки данных. Система работает следующим образом:

  • Снимки данных из центров обработки данных каждые пять минут и передача их в глубокие нейронные сети.
  • Затем он прогнозирует, как различные комбинации повлияют на потребление энергии в будущем.
  • Определение действий, которые приведут к минимальному энергопотреблению при сохранении заданного стандарта критериев безопасности.
  • Отправка и реализация этих действий в дата-центре

Действия проверяются локальной системой управления.

Приложения для обучения с подкреплением в торговле и финансах

Контролируемые модели временных рядов можно использовать для прогнозирования будущих продаж, а также для прогнозирования цен на акции. Однако эти модели не определяют действия, которые следует предпринять при конкретной цене акции. Введите обучение с подкреплением (RL). Агент RL может решить такую ​​задачу; стоит ли держать, покупать или продавать. Модель RL оценивается с использованием эталонных рыночных стандартов, чтобы убедиться, что она работает оптимально.

Эта автоматизация обеспечивает согласованность процесса, в отличие от предыдущих методов, когда аналитики должны были принимать каждое отдельное решение. IBM, например, имеет сложную платформу, основанную на обучении с подкреплением, которая позволяет совершать финансовые сделки. Он вычисляет функцию вознаграждения на основе убытка или прибыли от каждой финансовой операции.

Обучение с подкреплением в НЛП (обработка естественного языка)

В НЛП RL можно использовать для суммирования текста, ответов на вопросы и машинного перевода, и это лишь некоторые из них.

Авторы этой статьи Эунсол Чой, Дэниел Хьюлетт и Якоб Ушкорайт предлагают подход, основанный на RL, для ответов на вопросы с учетом длинных текстов. Их метод работает, сначала выбирая несколько предложений из документа, которые имеют отношение к ответу на вопрос. Затем используется медленный RNN для получения ответов на выбранные предложения.

Комбинация обучения с учителем и обучения с подкреплением используется для резюмирования абстрактного текста в этой статье. Газету возглавляют Ромен Паулюс, Каймин Сюн и Ричард Сочер. Их цель — решить проблему, возникающую при суммировании при использовании Attentional моделей кодировщика-декодера на основе RNN в более длинных документах. Авторы этой статьи предлагают нейронную сеть с новым внутренним вниманием, которое следит за вводом и непрерывно генерирует вывод отдельно. Их методы обучения представляют собой комбинацию стандартного предсказания слов под наблюдением и обучения с подкреплением.

Что касается машинного перевода, авторы из Университета Колорадо и Университета Мэриленда предлагают подход к синхронному машинному переводу, основанный на обучении с подкреплением. Интересная вещь в этой работе заключается в том, что она может узнать, когда доверять предсказанным словам, и использует RL, чтобы определить, когда ждать дополнительных входных данных.

Исследователи из Стэнфордского университета, Университета штата Огайо и Microsoft Research представили Deep RL для использования в генерации диалогов. Глубокий RL можно использовать для моделирования будущих вознаграждений в диалоге с чат-ботом. Разговоры моделируются с использованием двух виртуальных агентов. Методы градиента политики используются для поощрения последовательностей, которые содержат важные атрибуты разговора, такие как согласованность, информативность и простота ответа.

Другие приложения НЛП можно найти здесь.

Приложения для обучения с подкреплением в здравоохранении

В сфере здравоохранения пациенты могут получать лечение в соответствии с правилами, полученными из систем RL. RL может найти оптимальную политику, используя предыдущий опыт, без необходимости предварительной информации о математической модели биологических систем. Это делает этот подход более применимым, чем другие системы на основе управления в здравоохранении.

RL в здравоохранении классифицируется как динамические режимы лечения (DTR) при хронических заболеваниях или интенсивной терапии, автоматизированной медицинской диагностике и других общих областях.

В DTR входными данными является набор клинических наблюдений и оценок пациента. Результатом являются варианты лечения для каждого этапа. Они похожи на состояния в RL. Применение RL в DTR выгодно, потому что оно способно определять зависящие от времени решения для наилучшего лечения пациента в определенное время.

Использование RL в здравоохранении также позволяет улучшить долгосрочные результаты за счет учета отсроченных эффектов лечения.

RL также использовался для открытия и создания оптимальных DTR для хронических заболеваний.

Вы можете глубже погрузиться в применение RL в здравоохранении, изучив этот документ.

Приложения для обучения с подкреплением в инженерии

На переднем крае разработки Facebook разработала платформу для обучения с подкреплением с открытым исходным кодомГоризонт. Платформа использует обучение с подкреплением для оптимизации крупномасштабных производственных систем. Facebook использовал Horizon для внутренних целей:

  • персонализировать предложения
  • доставлять более содержательные уведомления пользователям
  • оптимизировать качество потокового видео.

Horizon также содержит рабочие процессы для:

  • смоделированные среды
  • распределенная платформа для предварительной обработки данных
  • обучение и экспорт моделей в производство.

Классический пример обучения с подкреплением на видеодисплее — предоставление пользователю видео с низким или высоким битрейтом на основе состояния видеобуферов и оценок других систем машинного обучения.

Horizon может справляться с производственными задачами, такими как:

  • развертывание в масштабе
  • нормализация признаков
  • распределенное обучение
  • обслуживание и обработка наборов данных с многомерными данными и тысячами типов объектов.

Обучение с подкреплением в новостной рекомендации

Предпочтения пользователей могут часто меняться, поэтому рекомендация новостей пользователям на основе отзывов и лайков может быстро устареть. При обучении с подкреплением система RL может отслеживать ответное поведение читателя.

Создание такой системы будет включать в себя получение функций новостей, функций чтения, функций контекста и функций чтения новостей. Особенности новостей включают, помимо прочего, содержание, заголовок и издателя. Функции читателя относятся к тому, как читатель взаимодействует с контентом, например, кликает и делится. Особенности контекста включают аспекты новостей, такие как время и свежесть новостей. Затем вознаграждение определяется на основе поведения этих пользователей.

Обучение с подкреплением в играх

Давайте рассмотрим приложение для игр, а именно AlphaGo Zero. Используя обучение с подкреплением, AlphaGo Zero смогла изучить игру Го с нуля. Он научился, играя против себя. После 40 дней самостоятельных тренировок Alpha Go Zero смогла превзойти версию Alpha Go, известную как Master, которая победила первого игрока мира Ке Цзе. Он использовал только черные и белые камни с доски в качестве входных данных и одну нейронную сеть. Простой поиск по дереву, основанный на одной нейронной сети, используется для оценки перемещений позиций и перемещений образцов без использования каких-либо развертываний Монте-Карло.

Ставки в реальном времени — приложения для обучения с подкреплением в маркетинге и рекламе

В этой статье авторы предлагают торги в реальном времени с многоагентным обучением с подкреплением. Работа с большим количеством рекламодателей осуществляется с использованием метода кластеризации и назначения каждому кластеру агента по стратегическому торгу. Чтобы сбалансировать компромисс между конкуренцией и сотрудничеством между рекламодателями, предлагается распределенная скоординированная многоагентная ставка (DCMAB).

В маркетинге способность точно нацеливаться на человека очень важна. Это связано с тем, что правильные цели, очевидно, приводят к высокой отдаче от инвестиций. Исследование в этой статье было основано на Taobao — крупнейшей платформе электронной коммерции в Китае. Предлагаемый метод превосходит современные одноагентные подходы к обучению с подкреплением.

Обучение с подкреплением в манипулировании робототехникой

Использование глубокого обучения и обучения с подкреплением может обучать роботов, способных хватать различные объекты — даже невидимые во время обучения. Это может быть использовано, например, при сборке продуктов на сборочной линии.

Это достигается путем объединения крупномасштабной распределенной оптимизации и варианта глубокого Q-Learning под названием QT-Opt. Поддержка QT-Opt для непрерывных пространств действий делает его подходящим для задач робототехники. Модель сначала обучается в автономном режиме, а затем развертывается и настраивается на реальном роботе.

Google AI применил этот подход к захвату роботов, где 7 реальных роботов работали в течение 800 часов робототехники в течение 4 месяцев.

В этом эксперименте подход QT-Opt преуспевает в 96% попыток захвата в течение 700 попыток захвата объектов, которые ранее не были видны. Предыдущий метод Google AI имел 78% успеха.

Последние мысли

В то время как обучение с подкреплением по-прежнему является очень активной областью исследований, был достигнут значительный прогресс в развитии этой области и ее применении в реальной жизни.

В этой статье мы едва коснулись областей применения обучения с подкреплением. Надеюсь, это вызвало некоторое любопытство, которое заставит вас погрузиться немного глубже в эту область. Если вы хотите узнать больше, ознакомьтесь с этим потрясающим репозиторием — без каламбура, а также с этим.

Смотрите также:

  1. Как понять агентов обучения с подкреплением? Что и почему я регистрирую во время обучения и отладки
  2. Лучшие доклады по обучению с подкреплением на конференции ICLR 2020

Эта статья изначально была написана Дерриком Мвити и размещена в блоге Neptune. Там вы можете найти более подробные статьи для специалистов по машинному обучению.