В этом посте представлен документ ICML 2021 Интерактивное обучение на основе описания деятельности. Авторы: Хан Нгуен, Дипендра Мисра, Роберт Шапир, Миро Дудик и Патрик Шафто.

Если у вас нет времени читать сообщение, вот минутный обзор:

Мотивация

В интерактивном обучении обучающий агент общается с учителем, чтобы получить новые навыки или знания. Учебный эпизод обычно протекает следующим образом:

  1. Агент получает задачу (обычно указывается как языковой запрос).
  2. Он генерирует выполнение для выполнения задания и отправляет его учителю.
  3. Преподаватель отправляет агенту отзыв о его выполнении.
  4. Агент использует информацию из отзыва, чтобы обновить свою модель.

Обратная связь - ключевой элемент, который отличает различные семейства алгоритмов интерактивного обучения. В имитационном обучении (IL; Ross et al., 2011) обратная связь является демонстрацией того, что содержит правильные действия, которые агент должен предпринимали на каждом временном шаге. В обучении с подкреплением (RL) обратная связь представляет собой скалярное вознаграждение, которое оценивает выполнение агента.

Обратная связь накладывает естественные ограничения на эффективность обучения агента. В случае IL, поскольку демонстрационная обратная связь прямо указывает правильные действия, агент обычно учится эффективно, справляясь с задачей после небольшого количества взаимодействий с учителем. Напротив, поскольку RL использует ограничительную обратную связь, такую ​​как скалярное вознаграждение (число с плавающей запятой), эта структура общеизвестно своей неэффективностью по выборке (см. Sun et al., 2017 для теоретического сравнения IL и RL).

Обратная связь также диктует прилагаемые учителем усилия. Помимо обучающих усилий, которые масштабируются (обратно) с эффективностью обучения агента, учитель также должен прилагать усилия, чтобы научиться передавать обратную связь, если «язык обратной связи» для него неестественен. В частности, в IL для демонстрации преподаватель может использовать только действия в пространстве действий агента. Знание о пространстве действий агента не является врожденным, и во многих случаях учителю может потребоваться приложить значительные усилия, чтобы овладеть интерфейсом управления агента. Например, научиться управлять роботом может быть огромной проблемой для человека, не разбирающегося в компьютерных технологиях. Напротив, скалярное вознаграждение в RL является агентно-агностическим типом обратной связи и является естественным для большинства людей (большинство людей согласны с тем, что более высокое вознаграждение означает лучшую производительность). Учителя-люди могут использовать ту же функцию вознаграждения, чтобы обучить задаче любого агента, реализующего алгоритм RL, независимо от того, как он работает.

Переходя от IL к RL, мы наблюдаем интересный компромисс между эффективностью обучения агента и усилиями преподавателя в области коммуникации и обучения. Поскольку обратная связь для учителя становится более естественной, агент, к сожалению, учится с меньшей эффективностью.

Можем ли мы разработать структуру обучения, которая обеспечит более выгодный компромисс? То есть структура, которая использует естественный тип обратной связи, но позволяет агенту учиться более эффективно, чем со скалярным вознаграждением. Предлагаемая нами структура, ILIAD (Интерактивное обучение на основе описания деятельности), направлена ​​на достижение этой цели.

ILIAD: интерактивное обучение на основе описания деятельности

В ILIAD учитель общается с агентом только на языке. В частности, обратная связь, предоставляемая учителем в каждом учебном эпизоде, представляет собой описание, которое устно описывает действия агента во время его выполнения. В следующем примере агента просят принести кружку на кухню. Он должен ориентироваться в доме, чтобы найти и забрать кружку. Изначально агент не понял просьбу и не смог ее выполнить, вернув ложку вместо кружки. Отзыв, сделанный учителем, представляет собой описание принесите ложку из кухни, которое описывает действия агента на языке. Наши модели основаны на общей стратегии обучения людей; предоставление описательной обратной связи наблюдали и изучали в контексте обучения родителей своих детей (Yoshida & Smith, 2003; Tomasello, 2009).

Отзыв с описанием дает преимущества по сравнению с другими типами отзывов. По сравнению с демонстрациями, описания даются на естественном языке учителя и, таким образом, не требуют от учителя усилий по общению и обучению. По сравнению со скалярными наградами описания содержат больше информации и позволяют повысить эффективность обучения.

Однако, в отличие от демонстрации или вознаграждения, отзывы о описании не поощряют или не препятствуют какому-либо конкретному поведению. Как агент может учиться, только зная, что он сделал?

В нашей статье математически показано, что обучение возможно, если описания взяты из того же распределения, что и запросы задач. Конкретно, когда описания имеют сходство с запросами, обучение основанию описаний для выполнения помогает агенту получить лучшее (обоснованное) понимание запросов, тем самым повышая способность агента выполнять задачи. В приведенном выше примере после получения описания «принести ложку из кухни» и связывания этого описания с действиями во время его выполнения агент может узнать, что «принести »,« ложка »и« кухня »относятся к окружающей среде. Следовательно, даже если агенту не удается выполнить текущую задачу, он получает знания, которые могут быть полезны для выполнения будущих задач.

ADEL: практическая реализация ILIAD

ILIAD оставляет две нерешенные проблемы для конкретных реализаций: проблему изучения языка и проблему языковой подготовки.

В ILIAD агент начинает с нулевого знания языка. Следовательно, при любом запросе задачи он может первоначально действовать случайным образом. В этом случае агент не может получить полезные описания для начальной загрузки. Например, в навигации, если робот продолжает ходить беспорядочно, учитель может описать это поведение как «вы действуете случайным образом» или даже «Я не знаю, как описать то, что вы делаем », которые не соответствуют ни одной практической задаче. Имея только эти описания, обучение может никогда не начаться. Мы хотим, чтобы агент генерировал исполнения, описания которых эффективно покрывают пространство запросов задач. Разработка такой стратегии генерации исполнения - это проблема изучения языка.

С другой стороны, после получения описания, как агент может эффективно обосновать его действиями и сущностями в окружающей среде? Это проблема с языковым основанием.

ADEL предлагает практические решения этих проблем. Для задачи исследования мы используем немаркированные исполнения, чтобы настроить поведение агента. В каждом эпизоде ​​агент случайным образом выбирает образец выполнения из распределения немаркированных казней или из своей собственной политики. Разумные немаркированные казни можно дешево построить, используя знания о структуре оптимального исполнения. Например, в навигации допустимые исполнения выполняются без коллизий и циклов; при семантическом синтаксическом анализе прогнозируемые синтаксические конструкции должны следовать синтаксису семантического языка. Мы математически доказываем, что при определенных предположениях, когда вероятность выборки немаркированных исполнений сводится к нулю, политика агента сходится к оптимальной политике. Для решения проблемы заземления мы используем максимальную вероятность изучения политики, которая напрямую преобразуется из описаний в выполнение.

Полученные результаты

Мы эмпирически оцениваем ADEL по сравнению с базовыми уровнями IL и RL по двум задачам: визуально-языковая навигация (Anderson et al., 2018) и изменение слов с помощью регулярных выражений (Andreas et al., 201 8). Чтобы снизить затраты и сделать эксперименты воспроизводимыми, мы используем предварительно собранные наборы данных для моделирования учителей, которые могут описывать выполнение агентов на языке.

Наши результаты показывают, что ADEL значительно превосходит базовые показатели RL с точки зрения как эффективности выборки, так и качества изученных политик. Кроме того, показатель успешности ADEL конкурентоспособен с показателями базовых показателей IL в задаче навигации и ниже на 4% в задаче модификации слова. Для достижения сопоставимых показателей успешности требуется примерно в 5–9 раз больше тренировочных эпизодов, чем базовые показатели IL, что вполне прилично, учитывая, что алгоритм должен искать в экспоненциально большом пространстве достоверные казни, в то время как базовые показатели IL дают эти выполнения. . Что касается проблемы VLN, насколько нам известно, эти результаты являются первыми, показывающими, что можно точно сопоставить производительность обученных с помощью IL агентов, используя только обратную связь на основе языка.

Важно подчеркнуть, что в этих экспериментах учителя ILIAD / ADEL ничего не знают о пространствах действий агентов. В частности, в задаче модификации слова мы не используем данные регулярных выражений при моделировании учителя. Тем не менее, наш учитель может обучить агента генерировать регулярные выражения почти так же эффективно, как учитель IL, который может предоставлять достоверные регулярные выражения.

Будущие направления

ILIAD - это очень общая структура. Он расширяет Hindsight Experience Replay (Andrychowicz et al., 2017) на языковые цели и расширяет обратный перевод (Sennrich et al., 2016) до многоэтапного итеративного процесса. ILIAD сопровождается строгой вероятностной формулировкой, которая потенциально может облегчить будущие теоретические исследования. Например, на основе этой формулировки мы можем показать сходимость алгоритмов ADEL в контекстно-бандитской настройке при определенных предположениях об учителе. Результаты интересны, потому что они описывают условия, при которых можно аппроксимировать апостериорное P (X | Y), зная только P (Y | X) и не зная P (X). Проверка того, верен ли этот результат в более общих условиях, может привести к новому инструменту для решения проблем оценки плотности.

ILIAD - это также попытка изучить интерактивное обучение с вероятностной точки зрения без вознаграждения. В ILIAD учитель явно не назначает вознаграждение за выполнение агента, но мы можем сделать вывод, что учитель неявно назначает вознаграждение, равное одному каждой паре выполнения и описания. Следовательно, существует возможная связь между ILIAD / ADEL и RL. Эта связь может пролить свет на новые направления изучения алгоритмов обучения с подкреплением с вероятностной точки зрения.

В настоящее время ILIAD еще не является высоко практичной обучающей структурой. Предоставление сотен тысяч описаний может стать обузой для учителя-человека. Использование композиционности языка для повышения эффективности выборки и обучение с различными типами обратной связи - многообещающие идеи для решения этой проблемы. Более фундаментальная задача - расширить ILIAD для моделирования всей сложности общения на основе человеческого языка.