Подражание - ключевая часть человеческого обучения. В мире высоких технологий, если вы не новатор, вы хотите быстро последовать за ним. В обучении с подкреплением мы максимизируем вознаграждение за свои действия. RL на основе модели фокусируется на модели (динамике системы) для оптимизации наших решений, в то время как методы Policy Gradient улучшают политику для лучшего вознаграждения.

С другой стороны, имитационное обучение фокусируется на имитации демонстраций экспертов.

При большом успехе контролируемого обучения не так уж сложно тренировать политику, собирая экспертные демонстрации, а контролируемое обучение имеет лучшую стабильность, чем многие методы RL.

Вызов

Одна из самых больших проблем - это сбор демонстраций экспертов. Если у него нет огромного бизнес-потенциала, дополнительные расходы могут быть непомерно высокими. Но технически есть еще одна серьезная проблема. Мы никогда не сможем точно скопировать вещи. Ошибка быстро накапливается на траектории и ставит нас в ситуации, с которыми мы никогда раньше не сталкивались.

Что касается человека, мы предпринимаем корректирующие действия, когда отклоняемся от курса. Предположим, мы хотим ехать прямо на перекрестке. Допустим, мы немного отклонились от курса влево. Как люди, мы предпринимаем корректирующие действия, чтобы вернуться вправо.

Но есть проблема с имитационным обучением. Мы не собрали никаких экспертных демонстраций в этой нестандартной ситуации. Или, что еще хуже, обучающие образцы могут предложить нам действительно повернуть налево. Проблема обучения с имитацией состоит в том, что мы не просим экспертов делать ошибки намеренно, чтобы узнать, как эксперты справляются с ошибками. Если мы сделаем это в реальной жизни, это вызовет множество проблем с безопасностью во время обучения.

Итак, давайте проведем мозговой штурм, что можно сделать.

  • Можем ли мы собрать больше обучающих выборок, похожих на ситуации вне курса?
  • Можем ли мы намеренно смоделировать ситуации отклонения от курса, если безопасность не является проблемой?
  • Можем ли мы лучше обучить модель, чтобы сократить количество отклонений от курса?

Решение для взлома

Мы можем не захотеть моделировать эти нестандартные ситуации, но это не означает, что мы не можем их идентифицировать и записывать. Давайте посмотрим на решение для взлома. Учебный самоходный автомобиль оснащен тремя камерами. Мы используем обучение с учителем, чтобы тренировать политику с помощью центральной камеры.

Но левая и правая камеры предназначены для обнаружения ситуаций, в которых нам необходимо предпринять корректирующие действия. Например, если мы должны идти прямо, но видим что-то рядом с левой камерой, мы должны немного повернуть вправо.

Такое решение будет работать только под конкретную задачу. Ниже приводится еще один пример полета дронов над лесной тропинкой.

DAgger (агрегирование наборов данных)

Мы также можем собрать больше обучающих выборок для ситуаций вне курса. Мы можем запустить нашу текущую политику и наблюдать. Затем мы просим экспертов-людей снова обозначить возможные действия. Это позволяет нам собирать образцы, которые мы упускаем при развертывании политики.

Вот алгоритм DAgger:

Но имейте в виду, что для этого решения может потребоваться, чтобы политика была достаточно зрелой для развертывания. Однако тренировочные образцы вспоминать дорого, а вмешательство человека в развертывание проблематично.

Стабилизирующий контроллер

В обучении с подкреплением политика (или контроллер), которую мы запускаем, может быть недетерминированной во время обучения. Ниже приведен линейный гауссовский регулятор. Мы используем распределение Гаусса для описания возможных действий. Важность в том, что наши действия могут незначительно отличаться.

Это позволяет исследовать во время обучения и заставляет систему (или эксперта) справляться с этими слегка отклоняющимися от курса ситуациями. Опять же, по соображениям безопасности, это решение более жизнеспособно, если оно выполняется в компьютерном моделировании. С помощью модели RL мы можем перепланировать на каждом временном шаге. После новых наблюдений за состояниями мы можем использовать метод оптимизации траектории для определения корректирующих действий. Однако мы задаемся вопросом, зачем нам имитационное обучение, когда доступна оптимизация траектории. Короткий ответ заключается в том, что оптимизация траектории может быть хороша для принятия корректирующих действий в этой немного нестандартной ситуации, но не хороша для предоставления общих инструкций. Есть и другие причины, но мы пока не будем их останавливаться.

Это обсуждение приводит нас к возможности того, что мы можем попросить компьютер пометить действия вместо человека. Как показано выше и в управляемом поиске политики, мы можем использовать метод оптимизации траектории для обеспечения этих корректирующих действий. Это делает решение более жизнеспособным с финансовой точки зрения.

Фактически, во время обучения мы можем использовать дорогостоящие датчики для измерения состояния окружающей среды. С помощью причудливых методов оптимизации он может планировать действия не хуже человека и предоставляет нам экспертные траектории, которые мы можем имитировать. Но для того, чтобы решение было финансово жизнеспособным, нам нужно обучить вторую политику без этих дорогих датчиков.

Например, наши беспилотные автомобили могут иметь LIDAR, RADAR и видеокамеры во время обучения для наблюдения за окружающей средой. Но для массового производства мы можем отказаться от LIDAR из-за стоимости. Здесь мы заставляем контролируемое обучение второй политике имитировать первую политику, но без дорогостоящих датчиков. Эта информация о состоянии должна быть извлечена напрямую с видеокамеры. Это похоже на концепцию «разделяй и властвуй». Первая политика фокусируется на сложной оптимизации траектории с использованием этих дополнительных состояний, а вторая - на извлечении признаков.

Частично наблюдаемый марковский процесс принятия решений

В одном из предыдущих примеров проверка отсутствующих данных обучения не обязательна. На изображении выше мы пытаемся пойти налево или направо? В некоторых случаях объекты могут быть заблокированы в текущем кадре. Следовательно, мы не можем определить наше действие только по одному кадру. Нам нужна историческая информация. Есть две возможности решить эту проблему. В первом подходе мы объединяем последние несколько кадров изображения и передаем их в CNN для извлечения функций. В качестве альтернативы мы используем RNN для записи исторической информации, как показано ниже:

Имитационное обучение против Обучение с подкреплением

Имитационное обучение требует экспертных демонстраций, которые часто предоставляются экспертами-людьми. Но в управляемом поиске политик или PLATO это обеспечивается методом оптимизации траектории или системой, которая имеет лучший доступ к состояниям. При имитационном обучении мы имеем дело с дрейфом там, где нет экспертной демонстрации. RL часто не очень стабилен и нелегко сходится. Имитационное обучение использует контролируемое обучение, которое в значительной степени изучается с более стабильным поведением. Но обученная политика хороша ровно настолько, насколько хороши демонстрации.

В обучении с подкреплением нам нужно знать, как действует вознаграждение, напрямую или посредством наблюдений. Его успех во многом зависит от того, насколько хорошо мы исследуем пространство решений. Но нет предела тому, насколько хорошей может быть политика.

Так можем ли мы объединить и то, и другое вместе? Эксперт может сказать нам, где исследовать, что сэкономит RL много усилий? И мы можем применить RL, чтобы усовершенствовать политику лучше, чем человек, и чтобы лучше справляться с нестандартными ситуациями.

Предварительная тренировка и тонкая настройка

Первый подход использует демонстрацию эксперта для инициализации политики. Это дает начало поиску. Затем мы применяем RL, чтобы улучшить политику и научиться справляться с этими нестандартными сценариями.

Хотя RL может улучшить политику, он все же может привести к неверным решениям, которые ухудшат политику. По мере того, как принимается все больше плохих решений, мы забываем то, что мы узнали из демонстрации экспертов.

Демонстрация данных вне политики

Ключевая проблема в имитационном обучении состоит в том, как тренировать политику, когда мы отклоняемся от курса. Для обучения в соответствии с политикой мы собираем образцы в соответствии с действующей политикой. Поскольку нынешняя политика не учитывает таких нестандартных ситуаций, мы усугубляем ситуацию.

Но для внеполитического обучения градиент политики или значения Q могут быть рассчитаны на основе выборок, собранных из другой политики. В данном случае это демонстрации экспертов и опыт, накопленный во время обучения. Если дрейф не слишком велик, есть шанс повторно использовать старые образцы для нашей оптимизации.

Выборка по важности с демонстрациями

Например, мы используем демонстрации и опыт обучения как данные, не относящиеся к политике. В сочетании с выборкой важности мы можем использовать эти данные для оценки ожидаемых выгод от новой политики. Например, это градиент политики, рассчитанный на основе демонстраций и опыта.

Чтобы оценка важности выборки имела низкую дисперсию, мы должны чаще отбирать области с высокими наградами. т.е. распределение выборки q должно быть.

И демонстрации, и опыт должны иметь высокую награду, и поэтому это хорошо для наших оценок градиента политики. Наконец, чтобы смоделировать распределение вероятностей для нашей демонстрации, мы используем

Q-обучение с демонстрациями

Для Q-обучения это еще проще, поскольку оно уже использует внеполитическое обучение.

Гибридная цель

Чтобы воспользоваться преимуществами обоих миров, мы также можем объединить RL и цель имитационного обучения, чтобы сформировать новый.

Гибридный объектив не потерял бы память о демонстрациях. Однако это добавляет больше гиперпараметров, и цель имитационного обучения может быть неочевидной. Решение также может быть предвзятым и может потребовать обширной настройки.

Ниже приводится гибридная цель для методов градиента политики и Q -обучения. Мы покажем уравнения, чтобы продемонстрировать концепцию.

Гибридный градиент политики

Гибридное Q-обучение

Мысли

Для имитационного обучения нам необходимо решить две основные проблемы:

  • как собирать экспертные демонстрации.
  • как оптимизировать политику для нестандартных ситуаций.

Первая проблема может зависеть от сложных методов, таких как управляемый поиск политик или оптимизация траектории, с помощью которых мы можем самостоятельно обучить систему. Для второй проблемы нам необходимо смоделировать эти ситуации, чтобы собрать новые ярлыки или использовать внеполитическое обучение с уже собранными образцами.

Источники и ссылки

Курс UC Berkeley Reinforcement Learning: Имитационное обучение и продвинутые методы.