В этой статье я хочу дать введение в модельно-ориентированное обучение с подкреплением. Обсудите фундаментальную концепцию MB-RL, преимуществах этих методов и их приложений, а также о проблемах и трудностях, которые возникают при применении MB-RL к вашей проблеме.

Мотивация

В искусственном интеллекте (AI) последовательное принятие решений, обычно формализованное как MDP, является одной из ключевых задач. Обучение с подкреплением и Планирование - два успешных подхода к решению этих проблем. У каждого свои достоинства и недостатки.

Логичным шагом было бы объединить оба метода, чтобы получить преимущества для обоих и, надеюсь, устранить их недостатки.

Ключевое различие между планированием и обучением заключается в том, известна ли модель динамики среды (планирование) или неизвестна (обучение с подкреплением).

Методы, сочетающие в себе планирование и обучение с подкреплением, относятся к категории модельно-ориентированного обучения с подкреплением (MB-RL). Но давайте посмотрим, как это вписывается в широкую область обучения с подкреплением (RL).

Цель всех алгоритмов RL - оптимизировать под конкретную задачу MDP. В зависимости от того, как это достигается, вы обычно разделяете поле RL на подполя безмодельного обучения с подкреплением (MF-RL) и MB-RL. MF-RL пытается оптимизировать политику напрямую или изучить функцию ценности без какой-либо информации о динамике или структуре вознаграждения в среде. В то время как MB-RL имеет доступ к модели среды и использует ее в процессе обучения для оптимизации политики.

Благодаря своей способности планирования методы MB-RL обычно имеют гораздо лучшую эффективность выборки. Это привело к тому, что методы MB-RL стали более успешно и часто использоваться в робототехнике и промышленном управлении, а также в других реальных приложениях.

Причина, по которой эффективность выборки так важна для робототехники и других реальных приложений, связана с обычно высокой стоимостью оборудования и физическими ограничениями образцов, которые могут быть получены с помощью робота.

Кроме того, сложные роботы с большими степенями свободы дороги и не так широко доступны. Вот почему многие исследователи RL больше сосредоточены на таких задачах, как (видео) игры или другие проблемы, где получение образцов не так дорого.

Поскольку модель играет решающую роль в различии между MF-RL и MB-RL, давайте проясним, что на самом деле можно понимать под словом «модель».

Модель состоит из динамики перехода среды и структуры / функции вознаграждения. Динамика перехода - это отображение текущего состояния s и действия a на следующее состояние s '. С такой моделью среда может быть полностью описана и заменена моделью. Использование определенных методов, таких как планирование, было бы невозможно без модели.

Однако есть некоторые различия в том, как агент обращается к модели. Посмотрим, как…

Модель

Для MB-RL необходимо различать, известна ли модель среды и предоставлена ​​ли она алгоритму инженером, или модель неизвестна и должна быть сначала изучена самим алгоритмом. Таким образом проводится различие в MB-RL между данной моделью (известной) и изученной моделью (неизвестной).

Если модель известна, она используется для использования динамики среды, то есть модель обеспечивает представление, которое используется вместо среды и к которому можно получить прямой доступ в процессе изучения политики или функции ценности. Если модель неизвестна, она будет изучена в начальном процессе перед оптимизацией путем прямого взаимодействия с окружающей средой. Однако позже в процессе обучения оптимальной политике или функции ценности необходимо учитывать, что усвоенная модель является лишь приближением к окружающей среде.

Известная модель

Если модель известна, с ее помощью можно смоделировать полные траектории и соответственно рассчитать их отдачу. После этого выбирается действие, приносящее наибольшее вознаграждение. Этот процесс называется планированием. Эти алгоритмы планирования различаются в зависимости от пространства действий, в котором они применяются. Планирование дискретных действий обычно выполняется алгоритмами поиска, которые создают деревья решений.

Текущее состояние - это корневой узел, возможные действия представлены стрелками, а другие узлы - это состояния, которые достигаются в соответствии с последовательностью действий. С таким деревом поиска и перебором всех возможных действий найти оптимальное действие легко.

Однако этот подход не подходит для многих приложений с большим пространством действий, поскольку количество возможных действий увеличивается экспоненциально. Для сложных задач PA применяет стратегии, которые позволяют планировать с ограниченным количеством траекторий. Примером такого алгоритма является поиск по дереву Монте-Карло (MCTS), который также используется в AlphaGo. Хороший пример алгоритма с известной и заданной моделью.

В MCTS дерево решений итеративно создается путем моделирования конечной серии игр, в частности, исследуя области дерева, которые еще не были посещены. Когда достигается лист в дереве поиска (конец игры), информация о посещенных состояниях обновляется / распространяется по дереву в соответствии с достигнутым вознаграждением. Затем выбирается действие, которое приводит к следующему состоянию, дающему наивысшую награду.

Для сравнения, непрерывные действия выполняются с помощью алгоритмов планирования, в которых используются методы оптимизации траектории. Их значительно сложнее решить, потому что они представляют собой задачи оптимизации для бесконечных измерений. Более того, многие из этих методов требуют градиента модели. Хорошим примером является Model Predictive Control (MPC), который оптимизирует для конечного промежутка времени и является одним из самых быстрых методов планирования в бесконечных временных горизонтах.

Неизвестная модель

Если модель неизвестна, перед изучением политики или функции ценности добавляется только один шаг, а именно изучение модели.

Единственный способ изучить модель окружающей среды - сначала взаимодействовать с ней. Таким образом можно построить набор данных среды. С этим набором данных модель может быть обучена в режиме обучения с учителем. Важно различать разные типы моделей, которым можно научиться. У каждого есть свои преимущества, недостатки и особые области применения.

Различные типы моделей можно изучить и представить с помощью различных методов, например:

  • Гауссовские процессы
  • Локальные линейные модели
  • Нейронные сети

В этой статье мы сосредоточимся на нейронных сетях (NN), но особенно часто использовались гауссовы порцессы или модели гауссовой смеси, поскольку они учитывают неопределенность модели или среды и являются очень данными эффективный. Однако они очень медленны для больших наборов данных, требуют больше данных, чем NN, и не могут изучать сложные среды так же хорошо, как NN. Кроме того, NN может изучать среды, в которых есть изображения в качестве представления состояния.

Разные типы моделей:

  • Форвардная модель
  • Обратная модель / обратная модель
  • Обратная модель

Перспективная модель является наиболее распространенным типом модели, и ее можно легко использовать для перспективного планирования. Он принимает в качестве входных данных текущее состояние s и выполненное действие a и предсказывает следующее состояние s ' или ds разница между s и s': ds = s'- s . Также возможно дополнительно спрогнозировать вознаграждение r вместе со следующим состоянием.

Обратная модель предсказывает, какое состояние s и действие a являются вероятными предшественниками конкретное состояние s '. С такой моделью можно планировать в обратном направлении, что, например, используется при подметании с приоритетом.

Обратная модель:

Учитывая состояние s и следующее состояние s ', обратная модель предсказывает действие , который был выполнен для перехода из одного состояния в другое. Такие модели используются для планирования RRT, для обучения репрезентации и применялись в модуле внутреннего любопытства для стратегий исследования внутреннего любопытства.

В общем, есть два способа изучить модель окружающей среды. В одном методе модель изучается, а затем остается нетронутой все остальное время. Во втором методе модель изучается вначале, а затем повторно обучается при изменении политики или плана.

Важно понимать, какую пользу алгоритм может получить от второго метода. Чтобы получить данные из среды, необходима политика, которая взаимодействует со средой. Однако вначале политика может быть детерминированной или полностью случайной. Таким образом, область исследования окружающей среды будет очень ограниченной. Однако это не позволяет модели изучить области, необходимые для планирования или изучения оптимальной траектории.

Однако, если модель повторно обучена новым взаимодействиям, которые будут происходить из новой и более совершенной политики, она будет многократно улучшать и адаптировать модель к новой политике и, таким образом, включать все области окружающей среды. Этот итеративный процесс называется агрегированием данных (DA).

В большинстве случаев модель неизвестна и изучается с использованием методов DA.
Однако при изучении модели возникают проблемы:

  • Переоснащение модели. Среда чрезмерно подходит к локальному региону в среде и, таким образом, не учитывает глобальную структуру среды.
  • Неправильная модель. Планирование или изучение политики с несовершенной
    моделью может привести к последующим ошибкам с серьезными проблемами, которые особенно фатальны для реальных приложений.

Чтобы получить точную модель, вам необходимо изучить все (важные) состояния окружающей среды. Это само по себе действительно проблема разведки, поскольку в некоторых штатах могут потребоваться некоторые специальные стратегии разведки.

Вывод

Подводя итог, можно сказать, что алгоритмы MB намного более эффективны для выборки, чем алгоритмы MF, благодаря планированию с использованием модели среды. Однако алгоритмы МБ имеют значительно худшую асимптотическую производительность, что связано с неполной или плохо изученной моделью. Тем более, что обученная модель никогда не сможет точно представить окружающую среду.

Кроме того, алгоритмы MB также требуют больше времени на обучение и вычислительных ресурсов, потому что в дополнение к политике также необходимо изучить модель среды. Но как только модель изучена, ее можно применять ко многим различным тренировкам. Тем не менее, RL на основе моделей особенно полезен, когда модель легче изучить в качестве политики, и когда взаимодействие со средой дорого или требует много времени для получения взаимодействий.

Сочетание модельно-ориентированного RL и без модельного RL

MF-RL имеет хорошие асимптотические характеристики, но низкую выборочную эффективность. С другой стороны, MB-RL эффективен с точки зрения данных, но имеет трудности с более сложными задачами. Благодаря комбинации подходов MB и MF можно изучить политику простым, но эффективным способом, при котором достигается высокая эффективность выборки при сохранении высокой производительности алгоритмов MF. Однако эти гибридные методы будут темой отдельной статьи.

Надеюсь, теперь я смогу кратко познакомить вас с MB-RL. Для получения дополнительной информации или идей я рекомендую вам ознакомиться с некоторыми из статей об алгоритмах MB-RL, таких как:

В будущем я планирую написать более глубокую и теоретически тяжелую статью о MB-RL с темами:

  • Обучение модели динамики для MB-RL
  • Планирование для MB-RL

Как только они будут готовы, я добавлю в эту статью их ссылки. А пока не стесняйтесь читать некоторые другие мои статьи, посвященные RL без моделей. Например:

или подписывайтесь на меня на Medium, GitHub или LinkedIn.