Почему обучение с подкреплением является такой горячей темой для проблем оптимизации систем управления в целом

Введение

Управление на основе данных, особенно те, которые основаны на стратегиях управления обучением с подкреплением (RL), являются новым модным словом для промышленной инженерии. RL кажется идеальной парадигмой для решения всех проблем управления, от управления двигателями внутреннего сгорания до резки металла роботами-манипуляторами и системами кондиционирования воздуха в зданиях. (Это также видно по количеству объявлений о вакансиях, связанных с RL, размещенных такими компаниями.) Мы видим аналогичный сбой в том, как модели глубокого обучения нарушили традиционные методы компьютерного зрения для распознавания и сегментации изображений.

Мы определяем управление на основе данных как простые методы машинного обучения (ML), применяемые к системам управления.

Чтобы понять движущие силы этой тенденции, нам сначала нужно понять ограничения теории управления для реальных систем.

Ограничения теории управления

На самом базовом уровне (и на высоком) система управления буквально состоит из системы и контроллера:

  • Система для управления
  • Контроллер применяет стратегию управления для оптимального управления системой.

Есть еще две вещи, которые нам необходимо рассмотреть в этом контексте: Любая стратегия, которую может применить Контролер, ограничена

  • его знание состояния системы — в большинстве случаев обеспечивается Сенсорами Системы;
  • и системные параметры, которыми он может управлять, также называемые системными приводами. Например, двигатель может управлять автомобилем только в определенном диапазоне скоростей и с определенным ускорением.

Внешние факторы/факторы окружающей среды также играют ключевую роль в стратегии управления, однако эта роль скорее является «входным» параметром, а не ограничением. Например, температура наружного воздуха играет ключевую роль в принятии решения о том, насколько охлаждать кондиционер; однако работа кондиционера этим не ограничивается.

На рисунке ниже показана система управления, где x_t — производная по времени от нелинейной функции f.

Затем разработка стратегии управления состоит из решения уравнений, характеризующих поведение системы, которые часто моделируются в виде линейных уравнений. Большая часть теории управления направлена ​​на решение линейных уравнений.

К сожалению, системы реального мира (в основном) нелинейны. Например, даже уравнение движения маятника нелинейно. Было проведено много исследований методов линеаризации, в основном методов преобразования нелинейных уравнений в линейные и последующего их решения с использованием теории управления линейным пространством состояний. К сожалению, такие методы линеаризации очень ограничены конкретными классами нелинейных уравнений и не могут быть легко обобщены.

Помимо сложности решения нелинейных уравнений, нам, конечно же, нужно знать, как моделировать систему (соответствующие ей уравнения) в первую очередь. По этой причине традиционные стратегии управления, также называемые управлением на основе моделей, по-прежнему исключают многие системы, которые мы не знаем, как моделировать (системные уравнения которых неизвестны). И сложность таких систем только увеличивается день ото дня, когда мы хотим решать гипермасштабные проблемы, например, климат-контроль, борьба с болезнями, автоматизированные транспортные средства, финансовые рынки и т. д.

Подводя итог ограничениям традиционной теории управления/управления на основе моделей:

  • Системные модели/уравнения неизвестны
  • Не работает для масштабных нелинейных доменов
  • Моделирование таких систем также очень затруднено из-за их высокой размерности.

Подробное обсуждение этой темы см. в превосходном руководстве Стива Бертона по системам управления [1].

МЛ спешит на помощь

Учитывая вышеупомянутые проблемы с традиционной теорией управления, давайте теперь попробуем понять, почему подходы, основанные на ML/Data, показывают многообещающие результаты в этом контексте.

Основная логика здесь заключается в том, что даже для системы очень большой размерности, которую мы не можем смоделировать, существуют доминирующие шаблоны, характеризующие поведение системы, и машинное обучение (глубокое обучение) очень хорошо справляется с изучением этих шаблонов.

Это (скорее всего) будет приблизительным, и хотя мы все равно не поймем систему полностью — этого достаточно для большинства реальных случаев использования (включая прогнозы), за исключением некоторых исключительных сценариев.

В этой статье мы сосредоточимся на подходах на основе RL для систем управления. Мы также коснемся ключевых различий между контролируемым ML и неконтролируемым/полуконтролируемым RL, а также того, как это делает RL хорошим выбором для потенциально любой задачи оптимизации управления.

Обучение с подкреплением (RL)

RL может достигать сложных целей, максимизируя функцию вознаграждения в режиме реального времени. Функция поощрения работает аналогично поощрению ребенка конфетами и шлепками, так что алгоритм наказывается, когда он принимает неправильное решение, и вознаграждается, когда он принимает правильное — это подкрепление. Аспект подкрепления также позволяет ему быстрее адаптироваться к изменениям настроений пользователей в реальном времени. Для подробного ознакомления со структурами RL заинтересованный читатель может обратиться к [2].

Несколько интересных замечаний о RL, не вдаваясь в технические детали:

  • Награды и политики не совпадают. Роли и обязанности функции вознаграждения и политик агента RL определены не очень четко и могут различаться в зависимости от архитектуры. Наивно было бы понимать, что при наличии связанного вознаграждения/затраты с каждой парой состояние-действие политика всегда будет пытаться минимизировать общую стоимость. По-видимому, кажется, что иногда поддержание экосистемы в стабильном состоянии может быть важнее, чем минимизация затрат (например, в случае использования климат-контроля). Таким образом, цель политики агента RL не всегда должна быть согласована с функцией вознаграждения, и именно поэтому необходимы две отдельные функции.
  • Подобно подходам с учителем в машинном обучении/глубоком обучении, подход RL, наиболее подходящий для внедрения на предприятии, — это RL на основе моделей. В RL на основе модели можно разработать модель сценария проблемы и запустить начальное обучение RL на основе значений моделирования модели. Например, в сценариях оптимизации энергопотребления моделью системы отопления, вентиляции и кондиционирования воздуха (HVAC) здания служит модель, значения моделирования которой можно использовать для обучения модели RL. Для сложных сценариев (например, игр, роботизированных задач), где невозможно построить модель проблемного сценария, все же можно запустить модель RL на основе исторических значений.

Это называется "офлайн-обучением" и считается хорошей отправной точкой при отсутствии модели. И это также причина, по которой RL часто рассматривается как гибрид между контролируемым и неконтролируемым обучением, а не как парадигма обучения без учителя.

  • Интернет-обучение и обучение без использования моделей остаются самыми сложными, когда агент обучения обучается и реагирует в режиме реального времени без какого-либо контроля. На данном этапе исследованиям в этой области не хватает теоретической базы. Исследователи пробуют разные подходы, просто добавляя больше данных и вычислительных мощностей для решения проблем. Таким образом, это остается самой «интересной» частью RL, поскольку текущие исследования в основном сосредоточены на эффективных эвристиках и распределенных вычислениях для ускоренного охвата пространства поиска. Применение DL (нейронных сетей) к различным аспектам RL, например, к политикам, вознаграждениям, также остается горячей темой, называемой Deep Reinforcement Learning [4].
  • Учитывая фундаментальный характер RL, существует много интересных концепций, которые можно позаимствовать из существующих исследований в науках о принятии решений и психологии человека. Например, интересная цитата Тома Гриффитса в его презентации «Рациональное использование когнитивных ресурсов у людей и машин» [5]:

в то время как имитация человеческого мозга кажется святым Граалем исследований AI/RL; люди долгое время считались персонажами с недостатками в психологических исследованиях. Итак, на самом деле мы хотим имитировать «рациональное поведение» человеческого мозга.

Подводя итог, конечно, нужно объединить эти две области, если мы хотим, чтобы машины достигли уровня настоящего человеческого интеллекта.

Практический пример: оптимизация HVAC на основе RL

Д. Бисвас. Оптимизация энергопотребления на фабриках на основе обучения с подкреплением. (Towards Data Science — ссылка), также опубликовано в материалах 11-й конференции ACM e-Energy, июнь 2020 г.

Приведенная выше статья представляет собой интересный пример в контексте нашего текущего обсуждения. Он демонстрирует успешный переход промышленной системы управления, управляемой традиционным ПИД-регулятором за последние 10 с лишним лет, на более эффективный контроллер на основе RL.

Промышленная система управления в этом случае относится к блокам отопления, вентиляции и кондиционирования воздуха (HVAC), отвечающим за поддержание параметров температуры и влажности на заводах (зданиях в целом). Датчики соответствуют внутренним (и наружным) датчикам температуры и влажности; а приводы соответствуют клапанам охлаждения, нагрева, повторного нагрева и увлажнения блоков HVAC. Развернутая модель RL показана на рисунке ниже:

Это сложная проблема, поскольку она требует вычисления оптимального состояния с учетом множества переменных факторов, например. заполняемость, производственный график, требования к температуре работающих машин, динамика воздушных потоков внутри здания, внешние погодные условия, энергосбережение и т. д.

Исходное состояние: когда мы первоначально начали изучать возможности подходов на основе RL для оптимизации контроллеров HVAC, блоки HVAC управлялись PID-контроллерами. ПИД (пропорциональная интегральная производная) [8] является популярным методом управления для задач оптимизации, который использует механизм обратной связи контура управления для управления переменными процесса.

Это имело место в течение последних 10 с лишним лет, и блоки HVAC выполняли свою работу по поддержанию заводской температуры и влажности на желаемых настройках очень стабильным и надежным образом. Таким образом, разведка на основе RL была в первую очередь мотивирована их потенциалом по снижению потребления энергии и выбросов CO2. (Исследования показали, что на HVAC приходится почти 50% потребления энергии в здании и 10% глобального потребления электроэнергии.)

Решение. Учитывая сложность моделирования таких систем, мы начали с начального развертывания стохастической модели RL (в том смысле, что она зависит только от последнего состояния). На следующем этапе мы расширили модель RL, включив в нее «долгосрочные вознаграждения», количественно определяемые Q-значением в терминологии RL. Q-значение для пары состояние-действие (s, a) определяется как взвешенная сумма ожидаемых значений вознаграждения всех будущих шагов, начиная с текущего состояния s, учитывая, что действие a выполняется в состоянии s. Эта модель RL работает в условиях непрерывного пространства. Каждый эпизод в этой настройке соответствует периоду, когда температура и (или) влажность в помещении начинают удаляться от соответствующих заданных значений, моменту возвращения условий в помещении к соответствующим заданным значениям — в результате открытия соответствующего клапана (клапанов). ).

Целевое состояние (текущее): в течение 6 месяцев пилотного проекта мы смогли разработать и ввести в эксплуатацию контроллер ОВКВ на основе RL, способный обучаться и адаптироваться к реальным заводским настройкам без необходимости любое оффлайн обучение. Результаты сравнительного анализа показывают возможность экономии энергии до 25% (по сравнению с тем, когда они работали с ПИД-контроллерами).

Заключение

В заключение, у RL было интересное путешествие до сих пор. От шумихи, вызванной неконтролируемыми агентами RL, обыгрывающими игроков AlphaGo, до попыток найти место / полезность в корпоративном мире. Это было похожее волнообразное путешествие и в области исследований: интерес к моделям RL достиг пика в последние несколько лет, когда прогресс в моделях глубокого обучения стал насыщенным; теперь акцент снова смещается на системы с самостоятельным наблюдением.

Сказав это, RL, кажется, нашел золотую середину в промышленных системах управления. Был достигнут некоторый прогресс в применении методов RL к рекомендателям [3], чат-ботам [9]; однако оптимизация управления — это то, где они «наиболее подходят». В этой статье мы выделили проблемы традиционной теории управления и указали на то, что контроллеры на основе RL потенциально могут решить / улучшить многие сложные проблемы в этой области. Это захватывающее время, чтобы принять участие в этом путешествии и надеюсь, что вы чувствуете то же самое — с нетерпением жду ваших отзывов!

Рекомендации

[1] Стив Бертон: Учебный курс управления, https://www.youtube.com/watch?v=Pi7l8mMjYVE&list=PLMrJAkhIeNNR20Mz-VpzgfQs5zrYi085m

[2] А. Барто, Р.С. Саттон: Обучение с подкреплением: введение. MIT Press, Кембридж, Массачусетс, 2018 г., http://incompleteideas.net/book/RLbook2018.pdf

[3] Д. Бисвас. Системы рекомендаций на основе обучения с подкреплением. (Medium link — Towards Data Science), также представленный в разделе Достижения в области искусственного интеллекта для здравоохранения на 24-й Европейской конференции по искусственному интеллекту (ECAI), сентябрь 2020 г.

[4] В. Дэбни: Достижения в обучении распределенному подкреплению и связи с планированием, 2020 г., https://www.youtube.com/watch?v=iqIGHSgYtbs

[5] Т. Л. Гриффитс, Ф. Лидер, Н. Д. Гудман. Рациональное использование когнитивных ресурсов: уровни анализа между вычислительным и алгоритмическим. https://cocolab.stanford.edu/papers/GriffithsEtAl2015-TiCS.pdf

[6] Ф. Олдевуртель и др. Энергоэффективное управление микроклиматом в здании с помощью предиктивного управления стохастической моделью и предсказания погоды. АКК, 2010.

[7] Ю. Ма и др. Упреждающее управление моделями работы систем охлаждения зданий. IEEE Transactions on Control Systems Technology, 20(3):796–803, 2012 г.

[8] Ф. Павлин. Руководство для идиотов по алгоритму PID. https://www.pidcontrol.net/index.html

[9] Ричарделли Э., Бисвас Д.: Самоулучшающиеся чат-боты на основе обучения с подкреплением. (Ссылка на канал — На пути к науке о данных) В: 4-я междисциплинарная конференция по обучению с подкреплением и принятию решений (2019).