Хорошо известная техника машинного обучения меняет теорию обучения с подкреплением и управления.

Исторически сложилось так, что системы управления строились путем сначала аппроксимации управляемой системы (или «объекта») с использованием хорошо изученных моделей, таких как линейно-квадратичный регулятор (LQR) или табличный процесс принятия решений Маркова (MDP), а затем проектирование (почти) оптимальный регулятор для этой предполагаемой модели. Этот метод работает достаточно хорошо, о чем свидетельствует множество областей применения, которые классическая теория управления поддерживает, от удержания самолетов на плаву до защиты химических предприятий от взрыва. Действительно, исследования в этих областях породили легкодоступный кладезь принципов проектирования и практических правил, которые можно использовать для создания с небольшими усилиями меню контроллеров, демонстрирующих приемлемую производительность.

Еще одно преимущество, которое предлагает этот классический подход, - это интерпретируемость получаемых в результате политик управления - они интуитивно удовлетворяют и имеют смысл. Это одна из причин, почему простые контроллеры с линейной обратной связью и пороговые политики так долго оставались опорой теории управления, несмотря на то, что есть много возможностей для улучшения производительности. Напротив, вам будет сложно объяснить непрофессионалу, например, что на самом деле «означают» 500 000 весов вашей любимой глубокой нейронной сети, несмотря на то, что она «работает».

Однако часто из-за абсолютной сложности современных приложений управления или постоянно растущего спроса на более быстрое развертывание и лучшую производительность этот подход может значительно не оправдать ожиданий. Например, плохо изученные системы - и получающиеся в результате неправильно определенные модели - могут на практике привести к переобучению и неполноценным контроллерам. Или объем данных, необходимый для достижения почти оптимального значения с помощью этих методов, может отрицательно повлиять как на производительность, так и на скорость развертывания. Поэтому появление таких сложных систем, как парк автономных транспортных средств и роботизированных команд, теперь требует изменения парадигмы в нашем взгляде на фундаментальную проблему контроля.

Появление таких сложных систем, как парк автономных транспортных средств и роботизированных команд, теперь требует изменения парадигмы в нашем взгляде на фундаментальную проблему контроля.

Один из появляющихся универсальных подходов к обучению с подкреплением (RL) в этом новом сценарии, по-видимому, заключается в использовании комбинаций заданных, заранее разработанных ансамблей «базовых» (или «атомарных») контроллеров, что (а) позволяет гибко комбинировать данных контроллеров для получения более богатых политик (мы будем использовать термины «политика» и «контроллер» взаимозаменяемо), чем атомарные политики, и, в то же время, (б) может сохранить базовую структуру данного класса контроллеров и предоставить высокая степень интерпретируемости итоговой гибридной политики. Здесь мы используем обычное значение термина policy, то есть отображение, которое выводит действие для каждого состояния объекта.

Что такое неправильное обучение? На языке машинного обучения для данного класса контроллеров (или гипотез или классификаторов, в зависимости от обстоятельств) алгоритм, который выбирает строго из доступных, называется надлежащим обучением, а те такие результаты (потенциально) вне данного класса называются неподходящими учениками [2]. Простым примером этого может быть проблема классификации с использованием конечного набора из N линейных предикторов, то есть N векторов веса. В этом сценарии алгоритм обучения, который (после обучения) всегда выбирает лучший из N заданных предикторов, будет называться правильным обучающимся. В качестве альтернативы алгоритм мог бы вывести лучшее из выпуклой оболочки этого набора, и тогда его можно было бы назвать неправильным учеником. На протяжении многих лет, хотя ненадлежащее обучение (IL) привлекало некоторое внимание в статистических сообществах и сообществах онлайн-обучения, оно остается в значительной степени неизученным. Таким образом, одна из целей данной статьи - привлечь внимание исследователей и практиков к этой методике как к перспективному и своевременному направлению исследований.

Статистическое обучение. Неправильное обучение уже повлияло на статистическое обучение, и результаты явно обнадеживают. Одним из очевидных примеров является метод Boosting, подробно рассмотренный в контексте классификации в [5]. Знаменитый алгоритм AdaBoost теперь адаптирован ко всем возможным областям применения в машинном обучении, от классификации до алгоритмической торговли, и даже получил своим изобретателям приз G o del Prize в 2003 году. проблема неправильной спецификации модели, например, была исследована в контексте обучения с учителем в [3], которая также показала резкое улучшение показателей сожаления у неподходящих учеников даже при использовании неверной параметрической модели ( правильные ученики показали гораздо худшую успеваемость). Точно так же проблема сожаления за конечное время с помощью логистической регрессии была недавно исследована в [4], где, опять же, производительность сожаления была значительно улучшена за счет использования неправильного обучения. Обратите внимание, что в обоих этих случаях обучающемуся нужно было только расширить свой поиск, включив выпуклые комбинации доступных атомарных предикторов.

Неправильное обучение в управлении. Неправильное обучение начинает привлекать внимание контрольного сообщества, и уже можно наблюдать два различных подхода. Первый [6] следует парадигме, описанной выше, с использованием базового или атомарного класса (неадаптивных) политик управления вместе с адаптивным метаобучающимся, который объединяет выходные данные этих политик для создания ненадлежащего контроллера с производительностью, строго превосходящей те, что в базовом классе. В самом деле, [6] также показывает примеры, когда стабилизирующий контроллер возникает из набора нестабильных атомарных контроллеров. Важно отметить, что неподходящий контроллер взаимодействует с управляемой системой только через базовые контроллеры, т.е. он выбирает базовый контроллер в каждом раунде, который, в свою очередь, реализует свое управляющее действие в системе. Политика управления, возникающая из адаптивного алгоритма, не обязательно должна точно совпадать с какой-либо из базовых политик для каждого состояния системы и, следовательно, явно неправильна.

С другой стороны, второй подход [1] существенно расширяет идею повышения до контроля. Это включает в себя поддержку набора экземпляров алгоритма «слабого обучения» (например, Online Gradient Descent). Предполагается, что слабые ученики являются адаптивными и предлагают контрольные предложения неадаптивному бустеру. Бустер, в свою очередь, объединяет эти предложения в управляющее действие, которое он реализует в управляемой системе. Та же логика, что и раньше, показывает, почему бустер может считаться неподходящим учеником. Обратите внимание, однако, что архитектура здесь по существу противоположна той, что была в [6] - контроллер не адаптивен и напрямую взаимодействует с системой.

Движение вперед. Хотя эти предварительные попытки выглядят многообещающими, есть много возможностей для улучшения. Например, являются ли две описанные выше архитектуры единственно возможными? Есть ли принципиальный способ выбрать базовый класс для данного приложения? Что касается теории, то возникает множество вопросов о границах сожаления и скорости сходимости. Как распространить эту теорию на ситуации с участием нескольких обучающих агентов? Таким образом, множество очень фундаментальных вопросов, как теоретических, так и практических, остаются открытыми и открывают перед исследователями захватывающие возможности для продвижения вперед в этой новой области контроля.

Ключевые слова: неправильное обучение, обучение с подкреплением, усиление, MetaRL, AdaBoost.

Ссылки

[1] Наман Агарвал, Натали Брухим, Элад Хазан и Чжоу Лу. Повышение качества управления динамическими системами. В Международной конференции по машинному обучению, страницы 96–103. PMLR, 2020.

[2] Авторы Википедии. Теория обучения распределению - Википедия, бесплатная энциклопедия. https://en.wikipedia.org/w/index.php? title = Distribution_learning_theory, 2020.

[3] Джон Дучи, Энни Марсден и Грегори Вэлиант. О неправильной спецификации в задачах прогнозирования и надежности из-за неправильного обучения. Препринт arXiv arXiv: 2101.05234, 2021.

[4] Дилан Дж. Фостер, Сатьен Кале, Хайпенг Луо, Мехриар Мохри и Картик Шридхаран. Логистическая регрессия: важность неправильного поведения. In Conference On Learning Theory, страницы 167–208. ПМЛР, 2018.

[5] Роберт Э. Шапир и Йоав Фройнд. Повышение: основы и алгоритмы. MIT Press., 2013.

[6] Мохаммади Заки, Ави Мохан, Адитья Гопалан и Ши Маннор. Неправильное обучение при оптимизации политик на основе градиентов. препринт arXiv arXiv: 2102.08201, 2021.