Обучение с подкреплением на конференции по искусственному интеллекту O’Reilly, Нью-Йорк, 2017 г.

Конференция по искусственному интеллекту O’Reilly 2017 прошла в Нью-Йорке пару недель назад. Это была потрясающая конференция с очень хорошими выступлениями как из академических кругов, так и из промышленности. В этом посте резюмируются несколько бесед и учебное пособие, которое я взял там, о обучении с подкреплением, области машинного обучения, касающейся того, как программные агенты должны действовать в среде, чтобы максимизировать некоторое понятие кумулятивного вознаграждения.

Машины, которые взаимодействуют с людьми

Анка Д. Драган из Беркли сделала ключевую заметку, озаглавленную « Автомобили, которые взаимодействуют с людьми », где она представила результаты из статьи Планирование автономных автомобилей, которые используют влияние на действия человека. .» Вместо того, чтобы просто избегать препятствий, то есть пытаться не мешать другим движущимся объектам, они смогли смоделировать драйверы как другие агенты, которые следуют своей собственной политике. Это означает, что робот знает, что другие автомобили также будут избегать столкновения с препятствиями, поэтому он может предсказать, как другие автомобили будут реагировать на его действия.

Автономное транспортное средство также может выполнять действия, которые позволят ему собирать информацию о других автомобилях. Например, он может начать медленно объединяться с полосой перед человеком, пока не будет достаточно доказательств того, что водитель не агрессивен и действительно будет тормозить, чтобы избежать столкновения.

Ключевое замечание было настолько хорошим, что я изменил свое расписание, чтобы увидеть ее доклад под названием Обратная функция вознаграждения, и, на мой взгляд, это был лучший доклад на конференции. Она начала с рассказа о фильме Фантазия от Диснея. Он основан на стихотворении Гете Ученик чародея, написанном в 1797 году. Как резюмирует Википедия,

Поэма начинается, когда старый колдун покидает свою мастерскую, оставляя своего ученика с домашними делами. Устав от того, чтобы приносить воду ведром, ученик зачаровывает метлу, которая выполняет эту работу за него, - используя магию, которой он еще не полностью обучен. Вскоре пол залит водой, и ученик понимает, что не может остановить метлу, потому что не знает, как это сделать.

По мере того, как мы создаем больше роботов, которые напрямую взаимодействуют с людьми, Драган изучает, как мы можем быть уверены, что они будут делать то, что мы действительно хотим, даже когда мы отдаем не очень точные приказы. Однажды я прочитал гипотетический рассказ, который тоже иллюстрирует эту проблему. К сожалению, мне не удалось найти ссылку, но она выглядит так:

Предположим, мы создаем сверхразумную машину и просим ее найти лекарство от малярии. Мы поставили перед собой цель минимизировать количество людей, умирающих от болезни. Робот выясняет, что самое быстрое и гарантированное решение проблемы - взломать все ядерное оружие в мире и запустить его, чтобы убить всех людей, убедившись, что никто больше не умрет от малярии. Машина способна достичь своей цели, но явно не так, как задумал программист.

Айзек Азимов также написал несколько хороших историй о похожих ситуациях и придумал три закона робототехники как способ решения проблемы.

Драган и ее группа провели много исследований в этой области: Должны ли роботы быть послушными?, Планирование роботов с использованием математических моделей состояния и действий человека, Игра с выключенным переключателем. Вкратце, их подход состоит в том, чтобы заставить робота учитывать, что порядок или политика, которые указывает человек, не идеальны, и он избегает рисков, не делая чего-то слишком отличного от того, что он видел во время обучения.

Сверхчеловеческий ИИ для стратегического мышления: победа над топ-профи в безлимитном техасском холдеме один на один, Туомас Сандхольм (Университет Карнеги-Меллона): Они смогли победить лучших игроков-людей в игре. который по сложности сопоставим с го, но не получил такого же внимания со стороны средств массовой информации. Игра представляет собой дополнительную сложность, поскольку игроки не имеют полной информации. Сандхольм прокомментировал третью переменную, помимо типичного компромисса между исследованием и эксплойтом, который игры должны учитывать: возможность использования. Их агент, Либератус, пытался минимизировать уязвимость. Это не очень хорошо для изучения плохих игроков, но с таким подходом можно победить лучших людей.

Учебник по глубокому обучению с подкреплением, Артур Джулиани. Очень красивое руководство с кодом, который легко понять и запустить. Джулиани представил несколько различных методов для усвоения подкрепления, включая теорию многоруких бандитов, Q-обучение, политический градиент и агентов-критиков. Взгляните на репозиторий учебника.

Создание игровых ботов с использованием OpenAI Gym and Universe, Анмол Джагетиа: К сожалению, у него было несколько технических проблем: некоторые примеры вылетали из строя, а те, которые работали, имели такую низкую частоту кадров, что мы не могли видеть, что агенты занимались этим, но его блокноты для учебника выглядят интересно: https://github.com/anmoljagetia/OReillyAI-Gamebots

Следите за новостями. Я напишу еще один пост на другие темы, которые я там видел: рекомендательные системы, тензорный поток и понимание естественного языка.

Обучение с подкреплением на конференции по искусственному интеллекту O’Reilly, Нью-Йорк, 2017 г.

Машины, которые взаимодействуют с людьми

Вопросы по теме