Новое исследование, проведенное британской компанией AI и исследовательской лабораторией DeepMind, позволяет агентам искусственного интеллекта воспринимать динамическую реальную среду, как это делают люди. Работа посвящена выравниванию наблюдаемых объектов по временным шагам как в полностью наблюдаемых, так и частично наблюдаемых средах и представлена ​​в документе AlignNet: Unsupervised Entity Alignment.

В то время как люди взаимодействуют с миром, мы опираемся на наше понимание объектов или сущностей в окружающей среде, которое остается согласованным, даже если объект временно закрывается. Однако агенты ИИ обычно обучаются с использованием только входных пикселей. Хотя недавно разработанные методы неконтролируемой сегментации сцены позволили вводить объектно-ориентированные данные, эти подходы ограничены отдельными кадрами, и модели не могут отслеживать, как объекты, сегментированные на одном временном шаге, соответствуют (или выравниваются) с объектами на более позднем временном шаге.

Исследователи отмечают, что эта проблема выравнивания препятствует прогрессу в использовании представлений объектов в последующих задачах.

Чтобы решить эту проблему, исследователи предлагают AlignNet, модель, способную вычислять соответствие между объектами во времени - не только от одного временного шага к другому, но и через длинные последовательности.

AlignNet имеет два ключевых компонента: динамическую модель, которая предсказывает, где объекты, выровненные на предыдущем временном шаге, должны быть в текущем, и модель перестановки, которая переставляет объекты на текущем временном шаге, чтобы соответствовать порядку ранее выровненных объекты.

Команда включила объектно-ориентированную функцию памяти, создав человеческое индуктивное предубеждение для сохранения объекта: когда появляется новый объект, он, вероятно, продолжает существовать, даже если он исчезнет в течение некоторого времени. Это позволяет модели иметь дело не только с появлением и исчезновением новых объектов, но и с повторным появлением ранее встреченных объектов после длительных окклюзий.

Исследователи продемонстрировали производительность AlignNet на пяти задачах, охватывающих три среды: SpriteWorld, Physical Concepts и Unity Room, частично наблюдаемую трехмерную среду. Они также протестировали подход в Unity Room и Physical Concepts, используя модифицированную версию AlignNet, которая включает память для работы с частично наблюдаемыми средами.

AlignNet очень хорошо показал себя в экспериментах в полностью наблюдаемых средах, как в 2D SpriteWorld, так и в 3D Physical Concepts: Continuity. AlignNet также продемонстрировал способность научиться использовать динамику для разрешения неоднозначных случаев, например, используя различную динамику объектов для разрешения, что происходит, когда два объекта имеют схожие формы и цвета.

Для задач в частично наблюдаемых средах исследователи дополнили AlignNet сетью Memory AlignNet на основе слотов, которая значительно превзошла базовые показатели как в среде Unity Room, так и в данных Physical Concepts Free-Form, успешно справляясь с появлением новых сущностей и исчезновение и повторное появление сущностей.

Исследователи предполагают, что, предлагая решение проблемы согласования, AlignNet открывает множество новых и интересных возможностей для будущей работы с объектно-ориентированными входами в обучении с подкреплением и других последующих задачах.

Статья AlignNet: неконтролируемое выравнивание сущностей находится на arXiv.

Репортер: Юань Юань | Редактор: Майкл Саразен

Синхронизированный отчет | Обзор решений искусственного интеллекта в Китае в ответ на пандемию COVID-19 - 87 тематических исследований от 700+ поставщиков ИИ

В этом отчете предлагается взглянуть на то, как китайское правительство и владельцы бизнеса использовали технологии искусственного интеллекта в борьбе с COVID-19. Он также доступен на Amazon Kindle.

Нажмите здесь, чтобы найти больше отчетов от нас.

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.