Обучение, основанное на взаимодействии: обучение на основе отзывов, а не наград

В типичной задаче обучения с подкреплением агент, находящийся в среде, делает наблюдения, предпринимает действия и получает вознаграждение. Цель агента — научиться получать максимально возможную сумму вознаграждения (иногда со скидкой). Для этого вознаграждение на каждом временном шаге используется для корректировки вероятности действий, предпринимаемых агентом в данном состоянии, так что в будущем агент будет получать в среднем больше вознаграждения, чем в прошлом. Этот параметр был тщательно изучен, и для его решения существуют очень эффективные алгоритмы как в табличном, так и в глубоком обучении.

Что, если бы не было доступных вознаграждений, а вместо этого агент просто получал сигнал обратной связи от среды? В этом случае большинство традиционных подходов RL больше не применяются. Именно эта постановка задачи была недавно описана Тенъян Се и его сотрудниками из Microsoft Research как Обучение, основанное на взаимодействии (IGL) в их одноименной статье ICLR 2021. В этой работе они не только изложили настройку IGL, но и предложили пару предварительных алгоритмов, которые могут решить проблемы IGL. В этом посте я пройдусь по IGL более подробно и предоставлю код для решения простой задачи идентификации цифр с использованием обратной связи вместо вознаграждения. Я открыл свой код PyTorch, который можно найти по этой ссылке:

https://github.com/awjuliani/interaction-grounded-learning

Настройка IGL

В статье авторы мотивируют IGL примерами из исследований человеко-компьютерного интерфейса. Если мы хотим, чтобы машины могли взаимодействовать с людьми естественным образом, нам нужно, чтобы они также могли естественным образом учиться на отзывах людей. Просить человека подавать дискретный сигнал вознаграждения для обучения агента после каждого действия, которое он предпринимает, является неоправданно громоздким бременем. Также бывает так, что демонстрационные данные могут быть недоступны или не иметь смысла в ряде контекстов. Вместо этого, если бы компьютер научился интерпретировать жесты рук человека, черты лица или даже сигналы мозга, чтобы вывести скрытый сигнал вознаграждения, обучение могло бы происходить гораздо более гладко.

Делая вещи более конкретными, авторы предлагают гораздо более простую игрушечную задачу, чтобы подтвердить свой ранний подход. Эта проблема представляет собой простую задачу идентификации цифр MNIST. В каждом испытании агенту показывают изображение цифры MNIST, и он должен угадать, что это за цифра (от 0 до 9). Если агент угадывает правильно, ему выдается сигнал обратной связи, соответствующий изображению цифры один. Если он угадывает неправильно, ему предоставляется изображение нулевой цифры. Проблема состоит в том, чтобы научиться делать выводы о значении этой обратной связи и использовать ее для улучшения работы агента.

Такая задача действительно решаема, если сделать некоторые упрощающие предположения. Ключевое предположение, сделанное в документе IGL, заключается в том, что желаемая политика значительно отличается от случайной политики. Мы можем видеть это в случае задачи MNIST, где случайная политика предоставит агенту сигнал обратной связи, состоящий из гораздо большего количества изображений нулей, чем изображений единиц. Напротив, оптимальная политика приведет к обратной связи, состоящей только из изображений единиц.

Задача обучения состоит в том, чтобы совместно изучить политику и декодер вознаграждений, для которых ожидаемое значение изученной политики в отношении декодированных вознаграждений больше, чем случайная политика в отношении декодированных вознаграждений.

В статье авторы предоставляют как автономный, так и онлайн-алгоритм для решения этой проблемы, а также предоставляют набор теоретических анализов относительно ее решения. Я настоятельно рекомендую взглянуть на их газету для всех деталей.

Моя собственная реализация агента IGL немного отличается от их, но решает проблему с сопоставимой эффективностью.

Основная идея состоит в том, чтобы собрать мини-пакеты испытаний как из политики, которую мы обучаем (exploit), так и из случайной политики (explore). Затем политика эксплойтов обновляется декодированными наградами с использованием политик-градиента, чтобы повысить вероятность выполнения полезных действий. Декодированные вознаграждения случайной политики также минимизируются с использованием градиентного спуска, чтобы уменьшить среднее вознаграждение, полученное случайной политикой. Процесс повторяется до сходимости. Результатом этой процедуры является то, что изученная политика принимает все более иную политику, чем случайная политика. Поскольку получение сигнала обратной связи изображений только одного делает изученную политику максимально отличной от случайной политики (по отношению к обратной связи), это то, что он учится делать. Вы можете увидеть результаты процесса обучения ниже.

Код доступный здесь можно использовать для воспроизведения этих результатов примерно за минуту.

Применение IGL к «реальным проблемам»

Как я упоминал выше, IGL может быть применим ко многим реальным областям, где приятный сигнал вознаграждения недоступен, но может быть нечеткий сигнал обратной связи. Вполне вероятно, что может потребоваться ряд расширений текущего подхода, прежде чем это станет возможным. Действительно, эта новая формулировка требует дополнительной последующей работы.

В алгоритмах, описанных в статье и здесь, делается предположение, что искомая политика существенно отличается от случайной политики. Это не всегда так. Мы также можем представить себе обратные примеры, когда оптимальная политика не только похожа на случайную политику, но и где есть гораздо худшие политики, которые совершенно отличаются от них. Представьте себе версию задачи MNIST, в которой выбор подлинной цифровой идентификации был бы нежелательным (т. е. традиционно давал бы вознаграждение -1). Текущая формулировка также предполагает контекстную бандитскую настройку, которая, несмотря на ее широкое применение, может не работать для настроек, которые лучше подходят для формулировки MDP. Обратная связь от людей также довольно беспорядочна, и разница между «хорошей» и «плохой» обратной связью может быть довольно шумной или даже меняться со временем.

В любом случае, если мы хотим иметь возможность прийти к миру, в котором агенты и люди взаимодействуют более естественным и плавным образом, агенты, которые учатся на двусмысленной обратной связи, станут важным шагом на пути к этому, и IGL предоставляет полезный формализм для этого. цель.

Обучение, основанное на взаимодействии: обучение на основе отзывов, а не наград

Настройка IGL

Применение IGL к «реальным проблемам»

Вопросы по теме