Новый фреймворк предоставляет OpenAI-подобную среду для языковых игр.

Недавно я начал новый информационный бюллетень, посвященный образованию в области искусственного интеллекта. TheSequence - это информационный бюллетень, ориентированный на искусственный интеллект (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Наша цель - держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:



Язык - одна из отличительных черт человеческого интеллекта, которая играет ключевую роль в наших процессах обучения. Используя язык, мы постоянно формулируем свое понимание ситуации в конкретном контексте. Многие магические способности человеческого мозга, такие как здравый смысл, умозаключение или умозаключение, регулярно выражаются посредством языка. Трудно представить себе какую-либо форму продвинутого искусственного интеллекта (ИИ), который не полагался бы на язык для выражения своего взаимодействия с данной средой. В последние годы обучение с подкреплением показало некоторые перспективы, помогая агентам искусственного интеллекта изучать свои собственные языки для общения. Чтобы облегчить быструю разработку языковых агентов, Microsoft Research разработала Jericho с открытым исходным кодом, учебную среду, в которой используются языковые игры для обучения агентов обучения с подкреплением.

Идея использования языковых игр для развития знаний имеет интуитивный смысл. Подобно тому, как младенцы учатся развивать язык, регулярно взаимодействуя с объектами, мы можем создать среду искусственного интеллекта с правильными стимулами для развития коммуникации в агентах обучения с подкреплением. Из различных моделей теории игр в пространстве изучения языков Иерихон полагается на недавнюю дисциплину, известную как интерактивные художественные игры (ИФ).

IF Games

В информатике игры IF определяются как программные среды, в которых игроки наблюдают текстовые описания моделируемого мира, выполняют текстовые действия и получают очки по мере прохождения истории. С этой точки зрения, игры IF представляют собой полностью текстовую симуляционную среду, в которой игрок вводит текстовые команды, чтобы изменить среду и продвинуться по сюжету. Такие игры IF, как Zork I, достигли невероятной популярности. Чтобы проиллюстрировать, как IF-игры могут применяться для обучения агентов ИИ, рассмотрим игру, показанную на следующем рисунке: агент обучения с подкреплением может научиться взаимодействовать со средой, выдавая языковые команды и получая текстовое описание нового состояния.

Подобно многим задачам обработки естественного языка (NLP), IF-игры требуют понимания естественного языка, но, в отличие от большинства NLP-задач, IF-игры представляют собой задачи последовательного принятия решений, в которых действия изменяют последующие состояния мира в игре, а выбор, сделанный на раннем этапе игры, может иметь долгосрочное влияние на возможные концовки. Кроме того, в играх IF есть собственный набор задач по изучению естественного языка:

· Комбинаторное пространство действий. Было разработано больше моделей обучения с подкреплением для работы как с дискретными, так и с непрерывными пространствами. Однако в играх IF требуется, чтобы агент работал в комбинаторном пространстве действий естественного языка. Например, агент, генерирующий предложение из четырех слов из скромного словаря размером 700, эффективно исследует пространство 7004 = 240 миллиардов возможных действий.

· Здравый смысл: из-за отсутствия графики, игры IF полагаются на здравый смысл игрока как на предварительную информацию о том, как взаимодействовать с игровым миром. Например, игрок-человек, сталкивающийся с запертым сундуком, интуитивно понимает, что сундук нужно разблокировать с помощью какого-либо типа ключа, и после разблокировки сундук можно открыть и, вероятно, будет содержать полезные предметы.

· Представление знаний: если игры охватывают множество разных локаций, каждая из которых имеет уникальные описания, объекты и персонажи. Игроки перемещаются между локациями, отдавая навигационные команды, например, идти на запад. поскольку связь между местоположениями не обязательно евклидова, агентам необходимо определять, когда навигационное действие было успешным или неудачным, и было ли достигнутое местоположение ранее замеченным или новым. Помимо определения местоположения, также полезно отслеживать объекты, присутствующие в каждом месте, с пониманием того, что объекты могут быть вложены внутри других объектов, например, еда в холодильнике или меч в сундуке.

Эти проблемы необходимо решить, чтобы сделать IF-игры жизнеспособным механизмом для обучения агентов обучения с подкреплением.

Войдите в Microsoft Jericho

Jericho - это учебная среда на основе Python, основанная на играх IF. Вы можете думать о Иерихоне как о спортзале OpenAI для изучения языков. Jericho оптимизирован для моделей обучения с подкреплением и предоставляет такие возможности, как сохранение состояния игры, которые могут помочь задействовать такие возможности, как память, в агентах обучения с подкреплением. Чтобы сделать игры IF более доступными и решить некоторые из проблем, упомянутых в предыдущем разделе, Jericho включает следующие функции:

· Представление мирового объекта-дерева: из-за большого количества локаций, объектов и персонажей во многих играх и возможности решения головоломок, требующих объектов, которых нет в текущем местоположении, агентам необходимо разработать способы помнить и рассуждать о предыдущих взаимодействиях. Представления состояния игры в виде дерева объектов и мира перечисляют эти элементы.

· Фиксированное случайное начальное число для обеспечения детерминизма: делая игры детерминированными, в которых последующие состояния являются прямым результатом определенного действия, предпринятого агентом, Jericho позволяет использовать целевые алгоритмы исследования, такие как Go-Explore, которые систематически создавать и расширять библиотеку посещенных состояний.

· Функция загрузки / сохранения: эта функция позволяет восстанавливать предыдущие игровые состояния, позволяя использовать алгоритмы планирования, такие как поиск по дереву Монте-Карло.

· Обнаружение мировых изменений и идентификация действительных действий: эта функция обеспечивает обратную связь об успехе или неудаче последнего действия агента по изменению состояния игры. Кроме того, Jericho может выполнять поиск, чтобы определить допустимые действия, которые приводят к изменению состояния игры.

Текущая версия Jericho включает два обучающих агента, Template-DQN (TDQN) и сеть релевантности с глубоким подкреплением (DRRN). Модели TDQN обычно более эффективны в играх на основе синтаксического анализатора, которые обрабатывают комбинаторное пространство действий, генерируя действия глагол-объект из заранее определенного набора глаголов и объектов. Модели DRRN лучше применять в играх, основанных на выборе, которые представляют собой серию вариантов выбора на каждом этапе игры. Jericho предоставляет общий кодировщик для согласованного представления входных данных для обеих моделей. Хотя оба агента используют общее представление ввода, они различаются методами выбора действия. DRRN использует идентификацию действительного действия Jericho для оценки Q-значения для каждого из допустимых действий a. Затем он либо действует жадно, выбирая действие с наивысшим значением Q, либо исследует, выбирая из распределения допустимых действий.

На предыдущей диаграмме мы можем видеть такие факторы, как Onar, Oinv и Odesc, как элементы для кодирования текстового ввода. После каждой команды агенты Иерихона используют общее входное представление, которое включает текущее текстовое наблюдение Onar, текст инвентаря Oinv и текущее описание местоположения Odesc (заданное командой просмотра). Если мы воспользуемся командой «открыть окно» в популярной текстовой игре Zork I, Jericho сгенерирует следующее представление.

· Онар: Приложив большие усилия, вы открываете окно достаточно далеко, чтобы можно было войти.

· Oinv: Вы с пустыми руками.

· Одеск: Вы за белым домом. Дорога ведет в лес на восток. В одном углу дома есть небольшое окно, приоткрытое.

Microsoft оценила TDQN и DRRN в разнообразном наборе из 32 игр, включая Zork I. Результаты показали, что агенты Jericho набирали более высокие баллы, чем другие агенты, даже когда имели дело с областями действия размером до 98 миллионов. Успех этих обучающих агентов демонстрирует, что Jericho эффективно снижает сложность IF-игр и делает их более доступными для RL-агентов для изучения и улучшения языковых навыков. Однако ни один из агентов даже близко не приблизился к человеческому уровню.

Иерихон - важный шаг к тому, чтобы сделать язык центральной частью моделей обучения с подкреплением. Некоторые из начальных экспериментов показали, что когнитивные навыки людей, такие как здравый смысл и дедукция, остаются серьезным препятствием для агентов ИИ. Однако Джерико показал, что языковое обучение может быть ключом к раскрытию этих возможностей.