Объяснимое обучение с подкреплением для продольного контроля

В следующей статье представлены исследования, которые я провел вместе с Яном Доменом и Марко Вирингом.

TL; DR: Обучение с подкреплением обещает достичь оптимальной производительности во многих приложениях. Однако, пока изученные действия остаются непрозрачными, их использование в приложениях, связанных с безопасностью, маловероятно. Представленная здесь новая диаграмма RL-SHAP открывает черный ящик и дает новый взгляд на процесс принятия решений по обучению с подкреплением.

Сюжетная линия

Представьте, что вы инженер, работающий над беспилотными автомобилями. Замечательная идея, не правда ли?

Становится еще лучше. Он согласился, что вы потратили время на то, чтобы убедить своего начальника использовать машинное обучение для продольного контроля!

Вы начали использовать самые инновационные алгоритмы машинного обучения и обучили агент обучения с подкреплением для продольного управления автомобилем.

Команда много работала, агент обучения с подкреплением тренировался часами, и это работает.

Вы взволнованы и взволнованы, и вам не терпится представить отличные результаты своему боссу ...

Встреча происходит и вдруг ... он спрашивает вас:

«Почему агент дает полный газ на расстоянии 270 м и почему агент выбирает действие 1?»

Что ты говоришь?

Вы думаете, как вам ответить.

Может быть, на последней тренировке потери были особенно низкими?

Может быть, агент соблюдает ограничения скорости в 99,999% случаев?

Или вы просто говорите, что искусственный интеллект настолько умен, что вам просто не следует подвергать сомнению решения? ;)

Or

Вы перематываете время назад, читаете эту статью, используете SHAP и объясняете, что:

  • Текущее ограничение скорости оказало наибольшее положительное влияние на действие (+1,44)
  • То, что текущая скорость транспортного средства также считалась важной и уменьшала действие (- 0,78)
  • И что ограничение скорости после следующего почти не повлияло на решение в этот момент.

Это определенно звучит интересно. Но как я пришел к этим ценностям? Где я могу их прочитать?

Если вы задаете себе эти вопросы, то вы попали в нужное место. Приятного чтения статьи.

PS: Если вам действительно интересно, прокрутите вниз до части с диаграммой RL-Shap;)

Мотивация

Глубокое обучение с подкреплением (DRL) может превзойти существующие современные достижения в различных практических приложениях. Однако до тех пор, пока изученные стратегии и принятые решения трудно интерпретировать, DRL не найдет своего пути в областях применения, связанных с безопасностью.

В этой статье глубокое обучение с подкреплением сочетается с SHAP (аддитивные объяснения Шапли) [1]. Добавление значений SHAP в DRL обеспечивает лучшее понимание изученной политики выбора действий. Применение метода SHAP для DRL демонстрируется с помощью OpenAI Gym LongiControl Environment [2].



Вступление

Как упоминалось ранее, большой проблемой для многих реальных приложений является поведение «черного ящика». После процесса обучения может быть непонятно, почему агент DRL принимает определенные решения. Часто неясно, имеют ли смысл усвоенные элементы управления или что-то пошло не так во время обучения. Пока невозможно понять, как принимаются решения, он не подходит для использования в областях, связанных с безопасностью. Кроме того, интерпретируемость результатов Deep RL позволяет быстрее исправлять ошибки и получать дополнительную информацию, такую ​​как чувствительность определенных функций состояния.

Обучение с подкреплением

Поскольку большинство читателей, безусловно, знакомы с основами обучения с подкреплением, я лишь кратко резюмирую основы ниже. Для более подробной информации рекомендую [3] и [4].

Обучение с подкреплением - это прямой подход к обучению на основе взаимодействия с окружающей средой для достижения поставленной цели.

В каждый дискретный момент времени t агенту предоставляется состояние из окружающей среды, для которого он должен выбрать действие. Агент определяет свои действия на основе внутренней политики, которая сопоставляет действие каждому наблюдаемому состоянию. За каждое выбранное действие агент получает награду и новое состояние.

Мы говорим о глубоком обучении с подкреплением, когда глубокие нейронные сети используются в обучении с подкреплением для представления взаимосвязи между состоянием и действием и состоянием, действием и Q-значением.

Интерпретируемость

Как обсуждалось в [5], подходы к созданию интерпретируемости можно разделить на две основные группы: прозрачность модели и апостериорная интерпретируемость.

В то время как первый пытается объяснить структуру модели, апостериорная интерпретируемость используется, чтобы понять, почему модель работает. Хотя в рамках глубокого обучения можно понять множество этапов вычислений, от этого нельзя ожидать улучшения знаний о модели. Следовательно, больший интерес представляет интерпретируемость апостериори.

Ценности Шепли

Использование ценностей Шепли [6] - это концепция решения кооперативной теории игр. Теория кооперативных игр исследует, как участники игры могут максимизировать свою ценность, формируя коалиции.

SHAP

SHAP предлагает теоретико-игровой подход для объяснения результатов модели машинного обучения. Для конкретного прогноза SHAP присваивает значение важности каждой функции. Сумма значений SHAP приводит к предсказанию модели.

Экспериментальная установка

Среда LongiControl Environment была использована для экспериментального исследования. . Цель состоит в том, чтобы автомобиль проехал по однополосному маршруту за заданное время с максимальной энергоэффективностью.

Для более подробного ознакомления с окружающей средой я могу отослать вас к следующей статье:



Метод

Недавно представленный метод состоит из четырех шагов. На первом этапе требуется обучение агента RL. Затем обученный агент может быть протестирован на траектории, и полученные в результате характеристики состояния и действия будут проанализированы с помощью диаграмм, которые предлагают четкую визуализацию причины выбора действия.

Агент DRL - Обучение

Обучение агента DRL может быть выполнено так же, как и при предыдущих настройках. Нет никаких явных требований к обучению применению представленной здесь методологии интерпретации, хотя мы фокусируемся на алгоритмах RL «субъект-критик». Как только агент достигает заданной производительности, выполняется следующий этап процесса.

Агент DRL - функция тестирования

Для тестирования представляет интерес только сеть акторов агента DRL, которая сопоставляет функции состояния с действием.

После определения интересующей нейронной сети для анализа актера возникает вопрос, какие входные значения следует использовать для теста. Теоретически возможны случайные входные значения. Однако они могли бы показать комбинации, для которых агент DRL не был обучен, и, таким образом, нарушили бы достоверность модели актера. В представленной здесь процедуре агент сталкивается с новыми сценариями в среде LongiControl.

Значения SHAP

Следующим шагом после пробного запуска является вычисление значений SHAP. Для этой цели объяснитель аппроксимируется из сети акторов тензорного потока и последовательности состояний тестового прогона.

Схема RL-SHAP

Поскольку трудно смотреть на отдельные примеры и распознать долгосрочные эффекты комбинации состояния и действия, можно отобразить весь ход переменных состояния. Для улучшения разборчивости таких цифр дополнительная информация для значений SHAP будет показана с использованием цветов в соответствующем месте.

Полученные результаты

Далее поведение, изученное агентом, интерпретируется на примере среды LongiControl. На следующем рисунке показаны значения SHAP и действие агента для одного состояния.

Анализ единого состояния

  • Базовая ставка составляет 0,08. Базовая ставка - это результат модели, который вычисляется, если входные переменные нейронной сети неизвестны.
  • К этому значению добавляется значение SHAP для скорости элемента, -0,78.
  • Далее следует значение SHAP для предыдущего ускорения, 0,09 и т. Д.
  • Сумма базовой ставки и семи значений SHAP равна 1,0 и примерно соответствует действию агента.

Из этого примера можно вывести, что ограничение текущей скорости функции имеет наибольшее влияние, а расстояние 2 ограничения будущей скорости функции имеет наименьшее влияние на результирующее действие для данного состояния. Исходя из этого, мы можем просто сделать вывод, что агент полностью ускоряется в основном из-за ограничения высокой скорости.

Проанализировав процесс выбора действия для одного состояния, мы рассмотрим более длинную траекторию.

Схема RL-SHAP

На следующем рисунке показана недавно представленная диаграмма RL-SHAP, чтобы получить еще более полное представление о процессе принятия решений.

  • В качестве дополнительной информации влияние этой функции (значение SHAP) на выбранное действие выделяется используемыми цветами.
  • Красный цвет функции означает, что эта функция увеличивает значение, синий - уменьшает значение, а серый цвет означает, что это значение лишь незначительно влияет на действие.

  • На третьей диаграмме красную окраску ясно видно по скорости в пределах первых 70 м. Агент сильно ускоряется, чтобы достичь скорости, близкой к предельной. После этого значение SHAP уменьшается и, следовательно, влияние этой функции на действие, что можно увидеть по изменению цвета с красного на серый.
  • Для сравнения, диаграммы 8 и 9 в основном серые. Это означает, что информация о предпоследнем ограничении скорости лишь частично включается в решение агента. Следовательно, эта функция кажется агенту менее важной.
  • Смесь серого, синего и слегка красного оттенков можно увидеть на 7-й диаграмме. На этой диаграмме показано расстояние до следующего ограничения скорости. Если вскоре будет установлен новый предел скорости, который ниже текущего, эта функция замедлит автомобиль. Это можно увидеть в диапазоне синих значений на расстоянии около 300 м. Уменьшение действия во многом связано с этой особенностью.

Заключение

Целью этой работы было разработать методологию, объясняющую, как обученный агент обучения с подкреплением выбирает свое действие в конкретной ситуации. С этой целью значения SHAP были рассчитаны для различных входных функций, и влияние каждой функции на выбранное действие было показано в новом представлении диаграммы RL-SHAP. Предложенный метод объяснимого RL был протестирован с использованием среды LongiControl, решенной с использованием алгоритма DDPG DRL.

Результаты показывают, что представление RL-SHAP проясняет, какие функции состояния имеют положительное, отрицательное или незначительное влияние на действие. Наш анализ поведения агента на тестовой траектории показал, что влияние различных характеристик состояния может быть логически объяснено с учетом некоторых знаний предметной области. Таким образом, мы можем сделать вывод, что использование SHAP и его интеграция в RL помогает объяснить процесс принятия решений агентом.

В рамках будущей работы мы хотим изучить методы, которые могут объяснить процесс принятия решений агентами DRL в многомерных входных пространствах.

Вы можете увидеть здесь Код Python. Приятного использования =)

использованная литература

[1] Lundberg, S. et al. (2017). Единый подход к интерпретации прогнозов модели. В достижениях в системах обработки нейронной информации 30, страницы 4765–4774. Curran Associates, Inc.

[2] Dohmen, J. et al. (2021 г.). LongiControl: среда обучения с подкреплением для управления транспортным средством в продольном направлении. В материалах 13-й Международной конференции по агентам и искусственному интеллекту, страницы 1030–1037. INSTICC.

[3] Р. Саттон и А. Барто, Введение в обучение с подкреплением (1988), MIT Press.

[4] T. P. Lillicrap et al., Непрерывный контроль с глубоким обучением с подкреплением (2015), CoRR

[5] Липтон, З. К. (2016). Мифы об интерпретируемости моделей. CoRR. Http://arxiv.org/abs/1606.03490.

[6] Шепли, Л. (1953). Значение для игр n человек. Вклад в теорию игр 2, 28: 307–317.