Обучение с подкреплением и 9 примеров того, что с ним можно делать.

Обучение с подкреплением - это подмножество машинного обучения, которое позволяет агенту учиться на последствиях действий в конкретной среде.

Обучение с подкреплением - это разновидность машинного обучения. Это позволяет агенту узнать о последствиях действий в конкретной среде. Его можно использовать, например, для обучения роботов новым трюкам.

Обучение с подкреплением - это модель обучения поведению, в которой алгоритм обеспечивает обратную связь при анализе данных, направляя пользователя к наилучшему результату.

Он отличается от других форм обучения с учителем, потому что набор выборочных данных не обучает машину. Вместо этого он учится методом проб и ошибок. Следовательно, ряд правильных решений укрепит метод, поскольку он лучше решает проблему.

Усиленное обучение похоже на то, что мы, люди, получаем в детстве. Мы все прошли через обучающее подкрепление - когда вы начали ползать и пытались встать, вы падали снова и снова, но ваши родители были рядом, чтобы поднять вас и научить вас.

Это обучение, основанное на опыте, в котором машина должна разбираться с тем, что раньше пошло не так, и искать правильный подход.

Хотя мы не описываем политику вознаграждения, то есть правила игры, мы не даем модели никаких советов или советов о том, как решить игру. Модель должна выяснить, как выполнить задачу для оптимизации вознаграждения, начиная со случайного тестирования и сложной тактики.

Используя исследовательский потенциал и многочисленные попытки, обучение с подкреплением является наиболее успешным способом выявить компьютерное воображение. В отличие от людей, искусственный интеллект получит знания из тысяч побочных игр. В то же время алгоритм обучения с подкреплением работает в надежной компьютерной инфраструктуре.

Примером усиленного обучения является, например, рекомендация на Youtube. После просмотра видео платформа покажет вам похожие названия, которые, по вашему мнению, вам понравятся. Однако предположим, что вы начинаете смотреть рекомендацию и не заканчиваете ее. В этом случае машина понимает, что эта рекомендация не будет хорошей, и в следующий раз попробует другой подход.

Проблемы обучения с подкреплением

Ключевой задачей обучения с подкреплением является планирование среды моделирования, которая во многом зависит от выполняемой задачи. При обучении игре в шахматы, го или Atari подготовка среды моделирования относительно проста. Однако создание модели, способной управлять автономным автомобилем, является ключом к созданию реалистичного прототипа перед тем, как позволить автомобилю ездить по улице. Модель должна решить, как разбить или предотвратить столкновение в безопасной среде. Перенос модели из учебной среды в реальный становится проблематичным.

Еще одна проблема - масштабирование и изменение нейронной сети агента. Нет возможности подключиться к сети, кроме как с помощью поощрений и штрафов. Это может привести к катастрофической забывчивости, когда получение новой информации приводит к удалению некоторых старых знаний из сети. Другими словами, мы должны продолжать обучение в памяти агента.

Другая трудность заключается в достижении отличного местоположения, то есть агент выполняет миссию как есть, но не идеальным или требуемым образом. Прыгун, прыгающий, как кенгуру, вместо того, чтобы делать то, что от него ожидают, - прекрасный тому пример. Наконец, некоторые агенты могут максимизировать приз, не выполнив свою миссию.

Области применения обучения с подкреплением

Игры

R.L. так хорошо известен сегодня, потому что это традиционный алгоритм, используемый для решения различных игр и иногда достижения сверхчеловеческой производительности.

Самыми известными должны быть AlphaGo и AlphaGo Zero. AlphaGo, обученная бесчисленным человеческим играм, достигла сверхчеловеческих возможностей, используя древовидную систему ценностей Монте-Карло и сеть ценностей (MCTS) в своей политической сети. Однако исследователи попробовали более чистый подход к Р.Л. - обучили его с нуля. Исследователи оставили нового агента AlphaGo Zero играть одному и наконец победить AlphaGo 100–0.

Персональные рекомендации

Рекомендации по новостям всегда сталкивались с рядом проблем, включая динамику быстро меняющихся новостей, пользователей, которые быстро устают, и показатель Click Rate, который не может отражать уровень удержания пользователей. Guanjie et al. Применил R.L. к системе рекомендаций новостей в документе под названием DRN: A Deep Reinforcement Learning Framework для рекомендаций новостей для решения проблем.

На практике они создали четыре категории ресурсов: A) ресурсы пользователя, B) ресурсы контекста, такие как ресурсы состояния среды, C) ресурсы новостей пользователя и D) ресурсы новостей, такие как ресурсы действий. Четыре ресурса были вставлены в Deep Q-Network (DQN) для вычисления значения Q. Список новостей был выбран для рекомендации на основе значения Q, и нажатие пользователем на новости было частью вознаграждения, полученного агентом R.L.

Авторы также использовали другие методы для решения других сложных задач, включая повторение памяти, модели выживания, градиентный спуск дуэльного бандита и так далее.

Управление ресурсами в компьютерных кластерах

Разработка алгоритмов распределения ограниченных ресурсов для различных задач является сложной задачей и требует эвристики, созданной человеком.

В статье Управление ресурсами с глубоким обучением с подкреплением объясняется, как использовать R.L., чтобы автоматически узнать, как распределять и планировать ресурсы компьютера для приостановленных заданий, чтобы минимизировать среднее замедление задания (задачи).

Пространство состояний было сформулировано как текущее распределение ресурсов и профиль ресурсов заданий. Что касается области действия, они использовали уловку, позволяющую агенту выбирать более одного действия на каждом этапе времени. Вознаграждение представляло собой сумму (-1 / продолжительность задания) по всем заданиям в системе. Затем они объединили алгоритм REINFORCE и базовое значение, чтобы вычислить градиенты политики и найти лучшие параметры политики, которые обеспечивают распределение вероятностей действий для минимизации цели.

Управление светофором

В статье Мультиагентная система на основе обучения с подкреплением для управления сигналами сетевого трафика исследователи попытались разработать контроллер светофора для решения проблемы перегрузки. Протестированные только в смоделированной среде, их методы показали результаты, превосходящие традиционные методы, и пролили свет на возможное использование многоагентного R.L. при проектировании систем трафика.

Пять агентов были размещены в транспортной сети с пятью перекрестками, с агентом R.L. на центральном перекрестке для управления дорожной сигнализацией. Состояние было определено как восьмимерный вектор, каждый элемент которого представляет относительный транспортный поток на каждой полосе движения. Агенту было доступно восемь вариантов, каждая из которых представляет собой комбинацию фаз, а функция вознаграждения была определена как сокращение задержки по сравнению с предыдущим шагом. Авторы использовали DQN, чтобы узнать значение Q пар {состояние, действие}.

Робототехника

Есть невероятная работа по применению Р.Л. в робототехнике. Рекомендуем прочитать эту статью с результатом исследований Р.Л. в области робототехники. В этой другой работе исследователи обучили робота изучать правила сопоставления необработанных видеоизображений с действиями робота. Изображения RGB были загружены в CNN, а выходными данными были крутящие моменты двигателя. Компонент R.L. был политическим исследованием, направленным на создание обучающих данных из его распределения состояний.

Конфигурация веб-систем

В веб-системе имеется более 100 настраиваемых параметров, и процесс настройки параметров требует квалифицированного оператора и нескольких тестов отслеживания и ошибок.

В статье Подход к обучению путем усиления самоконфигурации сетевой веб-системы показана первая в данной области попытка автономного перенастройки параметров в многоуровневых веб-системах в динамических средах на основе виртуальных машин.

Процесс реконфигурации можно сформулировать как конечный MDP. Пространство состояний было конфигурацией системы; пространство действия было {увеличение, уменьшение, поддержание} для каждого параметра. Наконец, награда была определена как разница между предполагаемым и измеренным временем отклика. Авторы использовали алгоритм Q-Learning для выполнения задачи.

Хотя авторы использовали некоторые другие методы, такие как инициализация политики, чтобы исправить обширное пространство состояний и вычислительную сложность проблемы, вместо потенциальных комбинаций RL и нейронной сети, считается, что новаторская работа подготовила почву для будущего. исследования в этой области…

Химия

R.L. также может применяться для оптимизации химических реакций. В статье Оптимизация химических реакций с глубоким обучением с подкреплением исследователи показали, что их модель превзошла самые современные алгоритмы и обобщена на различные базовые механизмы.

В сочетании с LSTM для моделирования функции политики агент RL оптимизировал химическую реакцию с помощью марковского процесса принятия решений (MDP), характеризуемого {S, A, P, R}, где S - набор экспериментальных условий (таких как температура, pH, и т. д.), A - это набор всех возможных действий, которые могут изменить условия эксперимента, P - вероятность перехода от текущего условия эксперимента к следующему условию, а R - вознаграждение, которое является функцией состояния.

Приложение отлично подходит для демонстрации того, как R.L. может сократить время и работу методом проб и ошибок в относительно стабильной среде.

Аукционы и реклама

Исследователи Alibaba Group опубликовали статью Аукционы в реальном времени с многоагентным подкреплением в медийной рекламе. Они заявили, что их распределенное многоагентное решение на основе кластера (DCMAB) дало многообещающие результаты и, следовательно, планирует проверить жизнь платформы Taobao.

Вообще говоря, рекламная платформа Taobao - это место, где маркетологи могут делать ставки за показ рекламы клиентам. Это может быть проблемой для многих агентов, потому что трейдеры делают ставки друг против друга, а их действия взаимосвязаны. В статье продавцы и покупатели были сгруппированы в разные группы, чтобы упростить вычисления. Пространство состояний агентов указывало на их статус затрат-доходов, пространство действий было (непрерывной) ставкой, а награда - доходом кластера клиентов.

Глубокое обучение

В последнее время можно увидеть все больше и больше попыток объединить R.L. и другие архитектуры глубокого обучения, и они показали впечатляющие результаты.

Одна из самых влиятельных работ Р.Л. - новаторская работа Deepmind по объединению CNN с R.L. При этом агент может видеть окружающую среду через многомерные сенсоры, а затем учиться взаимодействовать с ней.

R.L. и RNN - это другие комбинации, которые люди используют для опробования новых идей. RNN - это тип нейронной сети, у которой есть воспоминания. В сочетании с R.L., RNN предлагает агентам возможность запоминать вещи. Например, они объединили LSTM с R.L. создать глубокую повторяющуюся Q-сеть (DRQN) для игр Atari 2600. Они также использовали RNN и R.L. для решения задач по оптимизации химических реакций.

Deepmind показал, как использовать генеративные модели и Р.Л. для создания программ. В модели плохо обученный агент использовал сигнал в качестве награды за улучшение действий, а не распространял градиенты в пространство входа, как при обучении GAN. Невероятно, правда?

Заключение: когда следует использовать R.L.?

Подкрепление осуществляется наградами в соответствии с принятыми решениями; можно постоянно учиться на взаимодействии с окружающей средой. Таким образом, за каждое правильное действие у нас будут положительные награды и штрафы за неправильные решения. В промышленности этот тип обучения может помочь оптимизировать процессы, моделирование, мониторинг, обслуживание и управление автономными системами.

Некоторые критерии могут быть использованы при решении, где использовать обучение с подкреплением:

  • Когда вы хотите провести моделирование с учетом сложности или даже уровня опасности данного процесса.
  • Увеличить количество специалистов-аналитиков и экспертов по данной проблеме. Такой подход может имитировать человеческое мышление вместо изучения наилучшей стратегии.
  • Когда у вас есть хорошее определение вознаграждения для алгоритма обучения, вы можете правильно откалибровать каждое взаимодействие, чтобы получить больше положительных, чем отрицательных наград.
  • Когда у вас мало данных о конкретной проблеме.

Помимо промышленности, обучение с подкреплением используется в различных областях, таких как образование, здравоохранение, финансы, распознавание изображений и текста.

Ресурсы

здесь у вас есть соответствующие ресурсы, которые помогут вам лучше понять эту тему:

  1. Марковские процессы принятия решений (MDP) - структурирование задачи обучения с подкреплением
  2. Р.Л. Курс Дэвида Сильвера - Лекция 2: Марковский процесс принятия решений
  3. Демистификация обучения с подкреплением: марковские процессы принятия решений (часть 1)
  4. Демистификация обучения с подкреплением: марковские процессы принятия решений (часть 2)
  5. Что такое обучение с подкреплением? Полное руководство
  6. Обучение с подкреплением
  7. Применение обучения с подкреплением в реальном мире
  8. Практические рекомендации по градиентному обучению глубоких архитектур
  9. Градиентное обучение в приложении к распознаванию документов
  10. Нейронные сети и алгоритм обратного распространения ошибки, объяснение
  11. Повторяющаяся языковая модель на основе нейронных сетей
  12. Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование, второе издание
  13. Градиентный спуск для машинного обучения
  14. Распознавание образов и машинное обучение

Еще кое-что…

Если вы хотите продолжить свое обучение, я подготовил для вас фантастический список из более чем 60 учебных курсов по искусственному интеллекту, машинному обучению, глубокому обучению и науке о данных, которые вы можете пройти прямо сейчас бесплатно:

Предположим, вы хотите продолжать открывать новые ресурсы и узнавать об искусственном интеллекте в моей электронной книге (ссылка ниже). В этом случае я делюсь лучшими статьями, веб-сайтами и бесплатными онлайн-курсами обучения по искусственному интеллекту, машинному обучению, глубокому обучению, науке о данных, бизнес-аналитике, аналитике и другим, чтобы помочь вам начать обучение и развивать свою карьеру.

Изучите ИИ онлайн: более 200 ресурсов в Интернете, чтобы начать изучать ИИ

Кроме того, я только что опубликовал другие интересные электронные книги на Amazon, и я уверен, что некоторые из них могут быть интересны для вас ... давайте будем поддерживать связь, подписываться на меня и давайте делать это вместе.

Еще кое-что…

Я баллотируюсь на номинацию Top Leaders in Technology по версии A.I. Журнал.

Если хотите, можете номинировать меня как влиятельного человека в сфере высоких технологий в 100 лучших лидеров искусственного интеллекта. Журнал.

Окончательный список будет объявлен на предстоящем мероприятии Technology & AI LIVE 14 сентября - пожалуйста, назначьте меня сейчас: http://ow.ly/LrWu50FbpaZ