Facebook использовал языковую игру, чтобы лучше интерпретировать модели компьютерного зрения.

Недавно я начал выпускать образовательный информационный бюллетень, посвященный ИИ, на который уже подписано более 80 000 человек. TheSequence - это информационный бюллетень, ориентированный на машинное обучение (то есть без рекламы, новостей и т. Д.), На чтение которого уходит 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:



Видение и понимание - элементы человеческого познания, которые тесно связаны. Еще с младенчества мы развиваем концептуальные представления об объектах, которые видим, и эти представления становятся основой будущих знаний. Выберите свой любимый объект, и вы сразу же свяжете его с рядом понятий, таких как пространственные свойства (форма, размер, отношение к другим объектам), цвет, социальная принадлежность (семейные воспоминания…) и многие другие. Как люди, мы просто не умеем объяснять объекты иначе, чем используя их концептуальные атрибуты. Интуитивно мы предполагаем, что агенты искусственного интеллекта (ИИ) будут создавать визуальные представления об окружающей среде, подобные тем, которые созданы людьми, но так ли это на самом деле? Недавнее исследование, проведенное лабораторией AI Research (FAIR) Facebook, использовало очень точную технику, чтобы помочь нам понять, как на самом деле агенты ИИ видят вещи.

Появление языка стало важной вехой в эволюции человека, которая позволила людям быстро превзойти другие виды с точки зрения нашей социальной архитектуры. Язык развивается на основе потребности объяснять вещи и общаться. Из-за важности языка как ключевого элемента нашей социальной ДНК, в сообществе ИИ наблюдается растущий интерес к разработке методов, которые позволяют агентам ИИ развивать свои собственные языковые представления. Если мы пытаемся понять, как агент ИИ видит объекты в данной среде, нет лучшего способа, чем наблюдать, как он об этом сообщает.

Теория игр для развития языка: от Льюиса до Лазариду

Игры - отличный артефакт для воссоздания взаимодействий, способствующих возникновению языка. В 1969 году американский философ Дэвид Льюис представил сигнальную игру Льюиса как способ согласования общих интересов игроков на основе определенных сигналов. В сигнальной игре Льюиса есть два игрока: отправитель и получатель. Мир может находиться в любом из нескольких состояний, и отправитель знает об этом состоянии. Отправитель имеет в своем распоряжении фиксированный набор сигналов, которые он может отправить получателю. Получатель может наблюдать за отправленным сигналом, но не за состоянием мира, и должен предпринять некоторые действия. Для каждого состояния существует уникальное правильное действие, и отправитель и получатель предпочитают, чтобы получатель выполнял правильные действия в каждом состоянии. Поскольку и отправитель, и получатель предпочитают одни и те же исходы, эта игра представляет собой игру, основанную на общих интересах.

В прошлом году исследователь DeepMind Анжелики Лазариду предложил вариант игры Lewis Signaling Games, в которой используются низкоуровневые символьные входные данные для разработки протоколов связи высокого уровня между двумя агентами. В играх Lazaridou также есть два игрока: говорящий и слушатель. Сначала говорящему предъявляют целевой объект. Затем, используя алфавит, состоящий из примитивных дискретных символов, говорящий создает сообщение, описывающее этот объект. Наконец, слушателю предоставляется цель и набор отвлекающих объектов, и, используя сообщение говорящего, он должен идентифицировать целевой объект из набора объектов-кандидатов. Коммуникативный успех определяется как правильная идентификация цели слушающим агентом. На следующем рисунке показана концептуальная версия игры Лазариду.

Игра Лазариду показала, что агенты ИИ способны разрабатывать эффективные механизмы коммуникации, основанные на символических входных данных. Однако означает ли это, что они действительно могут объяснять объекты? Что произойдет, если мы заменим символьные входы реальными изображениями? Это то, что должна сделать команда FAIR.

Эксперимент в Facebook

Facebook создал вариант игры Lazaridou, в которой отправитель и получатель представлены изображениями вместо символического ввода. Цель этого варианта - поощрить мышление на уровне концепций. В реализации Facebook и отправитель, и получатель являются сетями прямого распространения. В этом варианте игры Лазариду отправитель и получатель подвергаются одной и той же паре изображений, одно из которых случайным образом помечается как «цель». Отправитель всегда видит цель в левой позиции, и он должен выбрать один дискретный символ из фиксированного словаря для отправки Получателю. Получатель видит изображения в случайном порядке вместе с отправленным символом и пытается угадать, какое изображение является целью. В случае успеха оба игрока получают выигрыш 1.

Результаты эксперимента FAIR были невероятно интересными. В большинстве экспериментов отправитель и получатель могли прийти к консенсусу на основе изображений, основанному исключительно на низкоуровневом сходстве функций, без разработки какого-либо концептуального представления объектов. Например, агенты искусственного интеллекта смогли определить, что и бостонский терьер, и чихуахуа представляют собак, но также смогли достичь консенсуса в отношении изображений без какой-либо соответствующей концепции.

Результаты показывают, что агенты ИИ сравнивают изображения на основе низкоуровневых функций, а не концептуальных характеристик. Яркий пример этого можно увидеть на изображении ниже. Когда в эксперименте использовались два тестовых изображения авокадо, которые выглядят достаточно похожими на человеческий глаз, ни отправитель, ни получатель не обнаружили заметного сходства (-0,27, -0,59). Напротив, для изображения кабины в поле и изображения телефона, которые имеют интуитивно правильное очень низкое входное сходство, и отправитель, и получатель имеют очень высокое сходство (0:94 и 0:95).

Вариант справочных игр Facebook предполагает, что агенты ИИ общаются на основе словаря, основанного на низкоуровневых представлениях, а не на использовании концептуальных свойств объекта. Это означает, что нам все еще необходимо проделать большую работу по согласованию концептуальных моделей объектов с их математическим представлением, чтобы помочь агентам ИИ «понять то, что они видят».