Примеры использования обучения с подкреплением в реальных предприятиях: системы рекомендаций, НЛП / чат-боты, оптимизация энергопотребления

Введение

С текущей настройкой насыщенности в методах глубокого обучения (DL) есть немало ожиданий, что подкрепление (RL) станет следующим большим достижением в AI.

Учитывая, что подходы, основанные на RL, можно применить к любой задаче оптимизации, его внедрение на предприятиях быстро набирает обороты.

RL относится к ветви искусственного интеллекта (AI), которая способна достигать сложных целей, максимизируя функцию вознаграждения в режиме реального времени. Функция вознаграждения работает аналогично поощрению ребенка конфетами и шлепками, так что алгоритм наказывается, когда принимает неправильное решение, и награждается, когда принимает правильное - это поощрение. Аспект подкрепления также позволяет ему быстрее адаптироваться к изменениям настроений пользователей в реальном времени. За подробным введением в RL-фреймворки заинтересованный читатель отсылается к [1].

RL Наблюдения

Некоторые интересные наблюдения о RL, не вдаваясь в технические детали:

  • Вознаграждения и политики - не одно и то же: роли и обязанности функции вознаграждения и политик RL Agent на данном этапе не очень хорошо определены и могут различаться в зависимости от архитектуры. Наивное понимание будет заключаться в том, что при наличии связанной награды / стоимости с каждой парой состояние-действие политика всегда будет пытаться минимизировать общую стоимость. По-видимому, иногда кажется, что поддержание экосистемы в стабильном состоянии может быть более важным, чем минимизация затрат (например, в случае использования климат-контроля). Таким образом, цель политики RL Agent не всегда должна быть согласована с функцией вознаграждения, и именно поэтому необходимы две отдельные функции.
  • Подобно контролируемым подходам в машинном обучении / глубоком обучении, подход RL, наиболее подходящий для внедрения на предприятии, - это RL на основе модели. В RL на основе модели можно разработать модель сценария проблемы и выполнить начальное обучение RL на основе значений моделирования модели. Например, для вариантов использования по оптимизации энергопотребления чертеж систем HVAC здания служит моделью, значения моделирования которой можно использовать для обучения модели RL. Для сложных сценариев (например, игр, роботизированных задач), когда невозможно построить модель проблемного сценария, можно загрузить модель RL на основе исторических значений.

Это называется «автономным обучением» и считается хорошей отправной точкой при отсутствии модели. И это также причина того, почему RL часто рассматривается как гибрид контролируемого и неконтролируемого обучения, а не как парадигма чисто неконтролируемого обучения.

  • Интерактивный и свободный от моделей RL остается наиболее сложной задачей, когда RL-агент пытается учиться и реагировать в режиме реального времени без какого-либо контроля. На данном этапе исследованиям в этой области, похоже, не хватает теоретической основы. Исследователи пробуют разные подходы, просто добавляя больше данных и вычислительных мощностей для решения проблем. Таким образом, это остается наиболее «интересной» (а также самой далекой от корпоративного внедрения) частью RL, при этом текущие исследования в основном сосредоточены на эффективной эвристике и распределенных вычислениях для ускоренного охвата пространства поиска. Применение DL (нейронных сетей) к различным аспектам RL, например Политика вознаграждений также остается горячей темой, именуемой «глубокое обучение с подкреплением» [1].
  • Учитывая фундаментальную природу RL, кажется, есть много интересных концепций, которые можно позаимствовать из существующих исследований в области Науки о принятии решений и психологии человека. Например, интересная цитата Тома Гриффитса из его презентации «Рациональное использование когнитивных ресурсов людьми и машинами» [3]:

имитация человеческого мозга кажется святым Граалем исследований AI / RL; В психологических исследованиях люди долгое время считались несовершенными персонажами. Итак, что мы действительно хотим сделать, так это имитировать «рациональное поведение» человеческого мозга.

Резюме, конечно же, заключается в том, что нам нужно объединить эти две области, если мы когда-либо хотим, чтобы машины достигли уровня истинного человеческого интеллекта.

RL - Корпоративные сценарии использования

Рекомендатели

Д. Бисвас. Рекомендательные системы на основе обучения с подкреплением. (Средняя ссылка), также представленная в треке Достижения в области искусственного интеллекта для здравоохранения на 24-й Европейской конференции по искусственному интеллекту (ECAI), сентябрь 2020 г. (paper pdf ) ( Ppt )

Аннотация. Мы представляем подход на основе обучения с подкреплением (RL) для внедрения рекомендательных систем. Результаты основаны на реальном приложении Wellness, которое может предоставлять пользователям персонализированный контент, связанный со здоровьем / активностью, в интерактивном режиме. К сожалению, текущие рекомендательные системы не могут адаптироваться к постоянно развивающимся функциям, например настроения пользователей и сценарии, в которых вознаграждение RL необходимо вычислять на основе нескольких ненадежных каналов обратной связи (например, датчиков, носимых устройств). Чтобы преодолеть это, мы предлагаем три конструкции: (i) взвешенные каналы обратной связи, (ii) отложенное вознаграждение и (iii) повышение вознаграждения, которое, по нашему мнению, необходимо для использования RL в рекомендательных системах.

Сопутствующие работы. Предыдущие работы исследовали RL в контексте рекомендательных систем [R1, R2, R3], и корпоративное внедрение, похоже, также набирает обороты с недавней доступностью облачных API-интерфейсов (например, Azure Personalizer [R4]) и Google RecSim. . Учитывая профиль пользователя и рекомендации по категориям, система дает рекомендации на основе популярности, интересов, демографии, частоты и других характеристик.

Основная новизна этих систем заключается в том, что они способны определять особенности (или комбинацию функций) рекомендаций, приносящих более высокие вознаграждения конкретному пользователю; которые затем можно настроить для этого пользователя для предоставления более точных рекомендаций [R5].

Чат-боты

Э. Риччарделли, Д. Бисвас. Самоулучшающиеся чат-боты на основе глубокого обучения с подкреплением. (Средняя ссылка), также опубликовано на 4-й конференции по обучению с подкреплением и принятию решений (RLDM), Монреаль, 2019 г. (Paper) (Code)

Аннотация. Мы представляем модель обучения с подкреплением (RL) для самоулучшающихся чат-ботов, специально предназначенную для чат-ботов типа FAQ. Модель нацелена не на создание диалоговой системы с нуля, а на использование данных из пользовательских разговоров для повышения производительности чат-бота. В основе нашего подхода лежит оценочная модель, которая обучена оценивать кортежи высказывания-отклики чат-бота на основе отзывов пользователей. Оценки, предсказанные этой моделью, используются в качестве вознаграждения для агента RL. Изучение политики происходит в автономном режиме благодаря имитатору пользователя, который загружается высказываниями из базы данных FAQ. Изучение политик реализуется с помощью агента Deep Q-Network (DQN) с эпсилон-жадным исследованием, который адаптирован для эффективного включения резервных ответов на вопросы, выходящие за рамки. Потенциал нашего подхода показан на небольшом кейсе, извлеченном из корпоративного чат-бота. Он показывает увеличение производительности с первоначальных 50% успеха до 75% за 20–30 эпох обучения.

Сопутствующие работы. Несколько исследовательских работ [C1, C2, C3, C4] показали эффективность подхода RL при разработке диалоговых систем. Критически важным для этого подхода является выбор хорошей модели вознаграждения. Типичная модель вознаграждения - это реализация срока штрафа за каждый ход диалога. Однако такие вознаграждения применимы только к чат-ботам для выполнения задач, где цель агента - удовлетворить запрос пользователя в кратчайшие сроки, но они не подходят для чат-ботов типа FAQ, где от чат-бота ожидается получение хорошего ответа за один ход. Отзывы пользователей также можно использовать в качестве модели вознаграждения в онлайн-обучении с подкреплением. Однако применение RL к живым разговорам может быть сложной задачей и может повлечь значительные затраты в случае отказа RL.

Лучшим подходом для развернутых систем является выполнение обучения RL в автономном режиме, а затем обновление политики NLU после достижения удовлетворительного уровня производительности.

Оптимизация энергопотребления

Д. Бисвас. Оптимизация энергопотребления на заводах на основе обучения с подкреплением. (Средняя ссылка), также опубликовано в материалах 11-й конференции ACM e-Energy, июнь 2020 г. (ppt)

Аннотация . Блоки отопления, вентиляции и кондиционирования воздуха (HVAC) отвечают за поддержание настроек температуры и влажности в здании. Исследования показали, что на HVAC приходится почти 50% потребления энергии в здании и 10% мирового потребления электроэнергии. Таким образом, оптимизация HVAC может внести значительный вклад в достижение наших целей в области устойчивого развития, сократив потребление энергии и выбросы CO2. В этой работе мы исследуем способы оптимизации управления HVAC на заводах. К сожалению, это сложная проблема, поскольку она требует вычисления оптимального состояния с учетом множества переменных факторов, например загруженность, производственный график, требования к температуре работающих машин, динамика воздушного потока внутри здания, внешние погодные условия, экономия энергии и т. д. Мы представляем модель оптимизации энергопотребления на основе обучения с подкреплением (RL), которая применяется на наших заводах. Мы показываем, что RL хорошо подходит, поскольку он способен учиться и адаптироваться к многопараметрической системной динамике в режиме реального времени. Он обеспечивает около 25% экономии энергии по сравнению с ранее использовавшимися пропорционально-интегрально-дифференциальными (ПИД) регуляторами.

Сопутствующие работы. Подходы на основе RL [E1, E2] недавно были предложены для решения таких проблем, учитывая их способность изучать и оптимизировать многопараметрические системы в реальном времени. Для подходов, основанных на RL, требуется начальная (автономная) фаза обучения, поскольку для обучения алгоритму RL в реальных настройках (онлайн) может потребоваться время, чтобы сойтись, что приведет к потенциально опасным нарушениям, поскольку агент RL исследует свое пространство состояний. [E1, E2] описывают решения для выполнения этого автономного обучения на основе имитационных моделей агрегата HVAC на основе EnergyPlus. EnergyPlus ™ - это симулятор HVAC с открытым исходным кодом от Министерства энергетики США, который можно использовать для моделирования как энергопотребления - для отопления, охлаждения, вентиляции, освещения и подключений и технологических нагрузок, так и использования воды в зданиях. К сожалению, разработка точной имитационной модели блока HVAC на основе EnergyPlus - нетривиальный, трудоемкий и дорогостоящий процесс; и как таковые могут быть препятствием для их использования в оффлайновых тренировках.

использованная литература

[1] Барто, А., Саттон, Р.С .: Обучение с подкреплением: Введение. MIT Press, Кембридж, Массачусетс, 2018, http://incompleteideas.net/book/RLbook2018.pdf

[2] Уилл Дабни: Достижения в распределенном обучении с подкреплением и связи с планированием, 2020, https://www.youtube.com/watch?v=iqIGHSgYtbs

[3] Т. Л. Гриффитс, Ф. Лидер, Н. Д. Гудман. Рациональное использование когнитивных ресурсов: уровни анализа между вычислительным и алгоритмическим. https://cocolab.stanford.edu/papers/GriffithsEtAl2015-TiCS.pdf

[R1] Чой, С., Ха, Х., Хван, У .. Ким, К., Ха, Дж., Юн, С .: Рекомендательная система на основе обучения с подкреплением, использующая технику бикластеризации. arXiv: 1801.05532, 2018.

[R2] Лю, Ф., Тан, Р., Ли, X., Йе, Й., Чен, Х., Го, Х., Чжан, Я .: Рекомендации на основе глубокого обучения с подкреплением с явным пользовательским - Моделирование взаимодействий элементов. arXiv: 1810.12027, 2018

[R3] Тагипур, Н., Кардан, А., Гидари, С.С.: Веб-рекомендации, основанные на использовании: подход к обучению с подкреплением. В: Конференция ACM по рекомендательным системам, стр. 113–120 (2007).

[R4] Ли, Л., Чу, В., Лэнгфорд, Дж. К., Шапайр, Р. Э .: Контекстно-бандитский подход к рекомендации персонализированных новостных статей. В: 19-я Международная конференция по всемирной паутине (WWW), стр. 661–670 (2010).

[R5] Обучение с подкреплением для улучшения рекомендательных систем. Https://analyticsindiamag.com/reinforcement-learning-recommender-system-recsim-google-ai/

[C1] Цзивэй Ли, Уилл Монро, Алан Риттер, Мишель Гэлли, Цзяньфэн Гао и Дэн Джурафски. Глубокое обучение с подкреплением для генерации диалогов. Препринт arXiv arXiv: 1606.01541, 2016.

[C2] Сюцзюнь Ли, Юн-Нунг Чен, Цзяньфэн Гао и Асли Челикйилмаз. Сквозные нейронные диалоговые системы для выполнения задач. На 8-й Международной совместной конференции по обработке естественного языка, 2017.

[C3] Баолинь Пэн, Сюцзюнь Ли, Цзяньфэн Гао, Цзинцзин Лю и Кам-Фай Вонг. Deep dyna-q: интеграция планирования для изучения политики диалога о завершении задачи. В материалах 56-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи), страницы 2182–2192. Ассоциация компьютерной лингвистики, 2018.

[C4] Юлиан Влад Сербан и др. al. Чат-бот с глубоким обучением с подкреплением. CoRR, abs / 1709.02349, 2017.

[E1] Т. Вейанд и др .. «Глубокое обучение с подкреплением для построения системы управления HVAC l» В материалах 54-й ежегодной конференции по автоматизации проектирования, стр. 22, 2017.

[E2] Т. Морияма и др. Стенд обучения с подкреплением для оптимизации энергопотребления. В трудах 18-й Азиатской конференции по моделированию (AsiaSim), стр. 45–59, 2018.