Модель Колумбийского университета учится предсказуемости из видео без ярлыка

В новой статье трио исследователей из Колумбийского университета предлагают новую структуру и иерархическую прогностическую модель, которая учится определять, что можно предсказать из немаркированного видео.

Будь то бить по мячу или ехать в пробке, люди постоянно делают прогнозы относительно окружающей среды. Мы делаем это, руководствуясь множеством факторов, и, как все мы знаем, некоторые вещи предсказать гораздо легче, чем другие.

Рассмотрим момент с парящими руками в коротком видео выше. Мы можем задаться вопросом, что будет дальше: обменяются рукопожатием или дадут пять? Исследователи предполагают, что вместо того, чтобы предсказывать точное следующее действие, модель могла бы вместо этого «застраховать ставку» и с большей уверенностью предсказать, что пара, по крайней мере, поприветствует друг друга.

В документе Изучение предсказуемости будущего представлена иерархическая прогностическая модель для изучения того, что можно предсказывать из немаркированного видео. Вдохновленные наблюдением, что люди часто организуют действия иерархически, исследователи разработали подход, позволяющий совместно изучить иерархию действий из немаркированного видео, а также научиться их предвидеть на нужном уровне абстракции. Таким образом, модель будет предсказывать будущее действие на конкретном уровне иерархии, когда она является уверенной, и, когда ей не хватает уверенности, выберет более высокий уровень абстракции для повышения уверенности.

Команда утверждает, что они разработали свою модель прогнозирования в гиперболическом пространстве на основе другого важного наблюдения, что гиперболическая геометрия естественным образом и компактно кодирует иерархические структуры. «В отличие от евклидовой геометрии, гиперболическое пространство можно рассматривать как непрерывный аналог дерево, потому что древовидные графы могут быть встроены в конечномерные с минимальным искажением », - объясняют они.

Использование гиперболических вложений для прогнозирования также использует преимущества иерархической природы визуальных данных, поскольку гиперболическое пространство естественно подходит для иерархий. Исследователи говорят, что гиперболические модели прогнозирования также могут плавно интерполировать между прогнозированием абстракций видео и конкретными представлениями в зависимости от уровня прогнозируемости.

Эксперименты с установленными наборами видеоданных FineGym и Hollywood2 показали, что, хотя репрезентации обучаются с немаркированным видео, иерархии действий возникают автоматически; и что предсказательные гиперболические представления могут как распознавать действия на основе частичных наблюдений, так и прогнозировать их лучше, чем исходные.

Статья Изучение предсказуемости будущего находится на arXiv. Код и модель доступны на проекте GitHub.

Репортер: Фаню Цай | Редактор: Майкл Саразен

Синхронизированный отчет | Обзор решений искусственного интеллекта в Китае в ответ на пандемию COVID-19 - 87 тематических исследований от 700+ поставщиков ИИ

В этом отчете предлагается взглянуть на то, как Китай использовал технологии искусственного интеллекта в борьбе с COVID-19. Он также доступен на Amazon Kindle. Наряду с этим отчетом мы также представили базу данных, охватывающую 1428 дополнительных решений искусственного интеллекта из 12 сценариев пандемии.

Нажмите здесь, чтобы найти больше отчетов от нас.

Мы знаем, что вы не хотите пропустить какие-либо новости или открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

Модель Колумбийского университета учится предсказуемости из видео без ярлыка

Вопросы по теме