Проблемы и приложения распознавания действий человека в видео

Распознавание действий человека (HAR) относится к автоматической идентификации конкретных действий или жестов посредством последовательности наблюдений. Распознавание действий может выполняться на изображениях или видео (которые, по сути, представляют собой последовательности изображений) и обычно используют архитектуры моделей глубокого обучения. HAR имеет широкий спектр реальных приложений, некоторые из которых я буду обсуждать в этой статье. Давайте погрузимся!

До глубокого обучения

До того, как глубокое обучение произвело революцию в автоматическом извлечении признаков, созданные вручную признаки извлекались вручную для классификации действий с использованием традиционных методов машинного обучения. Для данных изображений RGB было предложено множество функций действия, в том числе пространственно-временные объемные функции функции, пространственно-временные интересные точечные функции и strong>объемы совместной траектории.

Эти извлеченные вручную функции затем будут классифицированы с использованием традиционных классификаторов машинного обучения, таких как SVM, KNN и т. д. Однако эти подходы чрезвычайно затратны в вычислительном отношении, поскольку функции должны быть извлечены из каждого отдельного кадра каждого видео, сопоставленного с той же длиной последовательности, а затем обработаны для классификации с использованием традиционных классификаторов.

Кроме того, такие факторы, как движение камеры, окклюзия, сложность сцены и другие проблемы, ограничивают производительность созданных вручную функций при представлении и распознавании действий человека. По этим причинам глубокое обучение предпочтительнее для большинства приложений HAR.

Проблемы использования глубокого обучения для HAR

Действительно, глубокое обучение обычно используется для большинства задач анализа изображений (включая классификацию, обнаружение объектов, распознавание лиц и многое другое). Однако HAR создает несколько дополнительных проблем, которые модели глубокого обучения все еще пытаются решить:

  1. Высокие вычислительные затраты. Для оптимальной работы моделям глубокого обучения требуется много обучающих данных. HAR состоит из видеоданных, каждый из которых состоит из тысяч кадров. Таким образом, глубокая сеть, которую необходимо обучить на большом наборе данных HAR, будет иметь несколько миллионов параметров и может занять недели или даже месяцы для однократного обучения, что требует исчерпывающего поиска архитектуры (например, выбор между моделями на основе ResNet или Inception). основанные на модели) и неосуществимое усилие.
  2. Антропометрические вариации. В наборах данных HAR поза каждого человека, выполняющего одно и то же действие, будет значительно различаться, поскольку человеческие движения довольно сложны и представляют бесконечную изменчивость — малейшее подмигивание и движение могут иметь контекстно-зависимое значение.
  3. Вариации с несколькими представлениями. Проблема HAR становится еще более сложной из-за инвариантности представлений. Угол обзора оказывает существенное влияние на распознавание действий. Ведь с разных точек зрения может формироваться несколько образов одного и того же действия. Более того, разные действия можно считать одним и тем же.
  4. Загроможденный и динамичный фон. Среда, в которой записывается деятельность человека, имеет решающее значение для надежного распознавания действий. Алгоритмы HAR обеспечивают высокую производительность в помещении, где фон однороден и статичен. Однако эти характеристики значительно ухудшаются на открытом воздухе. Беспорядочный или динамичный фон — это дополнительная форма прерывания, вызванная фоновым шумом или движением. В реальных ситуациях извлечение глобальных признаков будет кодировать фоновый шум как неоднозначную информацию, что приведет к снижению производительности.
  5. Сходство между классами и внутриклассовая изменчивость: очень редко один и тот же человек повторяет одно и то же действие с одинаковым исполнением. Более того, каждый человек ведет себя уникально при выполнении одного и того же действия. Эта проблема возникает из-за антропометрических различий между людьми, привычек, скорости выполнения и т. д.
  6. Закупорка. Временное исчезновение частей человеческого тела из-за того, что они находятся за другим объектом или человеком большего видимого диаметра, — еще одна проблема в реальных моделях HAR. Это может быть связано с «самоокклюзией», когда с одной точки зрения одни части тела закрываются другой частью; «проблема толпы», когда два или более человека скрывают друг друга; или «окклюзия, созданная объектом», когда с одной точки зрения некоторые части тела закрыты объектом.

Возможные решения

Несколько исследователей пытались решить вышеупомянутые проблемы, используя различные стратегии, некоторые из которых мы обсудим далее.

HAR на основе скелета. В HAR представление скелета относится к набору точек в трехмерном пространстве, каждая из которых указывает физическое положение определенного сустава в теле субъекта. Эта задача также называется Human Pose Estimation, где человеческое тело графически представлено в виде скелета в каждом видеокадре.

Обработка данных скелета (вместо необработанной видеопоследовательности) уменьшает размерность набора данных, поскольку в скелетном представлении игнорируется нерелевантная информация. Кроме того, это помогает облегчить некоторые проблемы, возникающие из-за антропометрических вариаций, поскольку для класса действий учитываются только основные движения, а более тонкие детали, уникальные для каждого субъекта, отсутствуют.

Мультимодальный HAR. Наиболее популярное решение проблемы несогласованности точек обзора (окклюзии) – это использование нескольких синхронизированных камер для захвата одной и той же сцены в разных модальностях (ракурсах). Это решение может эффективно преодолеть проблемы самоокклюзии путем обучения классификатора данным, собранным из разных представлений.

Однако видео — не единственный тип мультимодальных данных. Фактически любая синхронизированная информация может выступать в качестве мультимодальных данных. Одним из примеров является использование подписей к изображениям на естественном языке вместе с видео. В качестве альтернативы можно объединить необработанные видеоданные с соответствующими данными скелета, как это сделали Franco et al. [10] или аудиоданные с визуальными данными, как это сделано Chen et al. [11].

Однако мультимодальный подход имеет серьезный недостаток. Обработка одномодальных наборов данных HAR требует больших вычислительных мощностей, поскольку каждое видео состоит из нескольких кадров (изображений). Добавление мультимодальных данных для каждого действия еще больше нагрузит модель.

Снижение контроля в HAR

Большинство традиционных методов глубокого обучения сосредоточены на обучении с учителем для задач HAR (т. е. систем, в которых входные данные и метки классов доступны для обучения сети). Однако для этого требуется пометить тысячи видео, что отнимает много времени и средств. Недавние усилия направлены на сокращение надзора за классификацией действий.

Распознавание нескольких выстрелов

Few-Shot Learning — это парадигма машинного обучения, в которой для обучения нейронной сети доступно всего несколько размеченных образцов на класс (подробнее об этом здесь). Он состоит из поддерживающего набора; набор из нескольких помеченных образцов (скажем, 3–5 образцов на класс) и набор запросов; набор выборок, на которых необходимо определить прогноз.

Один такой пример был сделан Perrett et al. [4], который разработал схему обучения HAR с помощью нескольких кадров непосредственно из видеоданных. Авторы создают прототип класса для конкретного запроса, используя механизм внимания CrossTransformer, чтобы сопоставить каждую подпоследовательность запроса со всеми подпоследовательностями в наборе поддержки и агрегировать эти доказательства.

Выполняя операцию внимания над упорядоченными во времени подпоследовательностями, а не отдельными кадрами, авторы могут лучше сопоставлять действия, выполняемые с разной скоростью и в разных частях видео, что позволяет различать более мелкие классы. На приведенном ниже рисунке показан пример того, как запрос видео обращается к нескольким видео с набором поддержки, используя кортежи, упорядоченные по времени.

С помощью своего метода авторы добились значительного повышения производительности: 12% для набора данных SSv2 по сравнению с современной моделью HAR для тех же данных.

Распознавание действий Zero-Shot

Zero-Shot Learning при распознавании действий требует распознавания новых категорий действий, которые ранее были недоступны на этапе обучения модели. Это еще более сложно, чем обучение в несколько приемов, и подпадает под понятие неконтролируемого обучения.

Большинство существующих методов Zero-Shot HAR (ZSHAR) используют только визуальные подсказки основных понятий в видео (таких как действия, атрибуты и т. д.), но игнорируют информацию из внешних знаний для моделирования явных взаимосвязей между ними. Люди обладают замечательной способностью переносить знания, полученные в знакомых классах, на незнакомые классы.

Чтобы сократить разрыв в знаниях между существующими методами ZSHAR и людьми, Gao et al. [5] предложил сквозную структуру Zero-Shot для распознавания действий, основанную на структурированном графе знаний, который может совместно моделировать отношения между действием-атрибутом, действием-действием и атрибутом-атрибутом.

Чтобы эффективно использовать информацию о знаниях в графе знаний
, авторы используют сверточную сеть графов (GCN) для моделирования зависимостей и распространения сообщений между различными концепциями в графе знаний. В частности, они предложили двухпоточный GCN
, состоящий из ветви классификатора и ветви экземпляра. Эти графы знаний включены в обе ветви для моделирования трех типов отношений. Ветвь классификатора предназначена для создания классификаторов для различных категорий действий, используя в качестве входных данных набор понятий и соответствующие им векторы встраивания слов. Ветвь экземпляра предназначена для создания атрибутивной функции экземпляра видео путем использования оценок объектов, полученных из видео.

Наконец, они оптимизируют всю структуру за счет потери классификации, используя сгенерированные классификаторы и атрибуты обучающих видео. Кроме того, в структуру временного моделирования встроен модуль самоконтроля. Авторы получили благоприятные результаты по сравнению с современной моделью HAR, что подтверждает жизнеспособность их подхода (показано ниже).

Стандартизировать управление моделями может быть сложно, но есть решение. Узнайте больше об управлении экспериментами от Николаса Ласкариса из Comet.

Приложения распознавания действий:

Улучшение моделирования распознавания действий — важная область исследований с несколькими приложениями, некоторые из которых мы обсудим далее.

Поиск видео

Поиск видео — это парадигма компьютерного зрения, в которой часть входной информации (текст: поиск видео на основе текста или видео: поиск видео на основе видео), скажем, о конкретном действии, используется для извлечения видео, изображающих одно и то же действие, из большого Набор видеоданных HAR. Например, быстрый рост видео в Интернете сделал поиск видеоконтента с использованием запросов на естественном языке серьезной проблемой. Генерируемые людьми запросы к наборам видеоданных «в дикой природе» сильно различаются с точки зрения специфичности, причем некоторые запросы описывают «конкретные детали», такие как имена известных личностей, контент из речи или текст, доступный на экране.

Лю и др. [6] предложил метод ансамбля для агрегирования существующих знаний из предварительно обученных семантических вложений для решения задачи поиска видео. Обзор их архитектуры показан на рисунке выше.

Субтитры к видео

Субтитры к видео — это автоматическое описание действий в видео с использованием обычного текста. Большинство естественных видео содержат многочисленные события. Например, в видео «мужчина играет на пианино» видео может также содержать «танцующий мужчина» или «толпа аплодирует».

Кришна и др. [7] решил эту проблему, используя контекстуальную информацию о прошлых и будущих событиях для совместного описания всех событий. Авторы предлагают модуль субтитров, который включает контекстную информацию и языковое моделирование. Их рабочий процесс показан ниже.

Видео с ответами на вопросы

Ответы на видео-вопросы (VQA) направлены на то, чтобы отвечать на вопросы на естественном языке в соответствии с предоставленными видео. Понимание вопросов и поиск подсказок для ответов являются ключом к VQA. По сравнению с ответами на вопросы с изображением, VQA необходимо точно находить подсказки как в пространственном, так и во временном измерениях одновременно, и поэтому это более сложная задача.

Цзян и др. [8] предложил модель пространственно-временной контекстуальной сети внимания, управляемой вопросами (QueST), для решения проблемы VQA. В QueST блок Video-Guided Question Attention (VGQA) сначала кодирует вопрос в два разных встраивания вопроса (пространственное встраивание вопроса и временное встраивание вопроса). Затем в пространственном и временном измерениях видео последовательно вводятся блоки контекстного внимания (CAB), ориентированные на вопросы, для моделирования контекстно-зависимых визуальных характеристик и извлечения визуальных подсказок, связанных с ответом, в конкретном измерении видео под руководством соответствующая функция вопроса.

Авторы добились значительных результатов в своей модели по сравнению с современным методом HAR.

Заключение

Распознавание действий человека является активной областью исследований из-за его разнообразных и актуальных приложений, от безопасности до медицины и многого другого. Однако, как и любая другая задача Computer Vision, она не обходится без проблем, хотя исследователи в настоящее время работают над их решением.

Наряду с традиционными проблемами HAR, дополнительной проблемой является маркировка больших наборов данных HAR. Таким образом, в последнее время исследования HAR были сосредоточены на использовании частично контролируемых, самоконтролируемых или неконтролируемых методов для классификации действий, используя необходимость трудоемких аннотаций. Несмотря на то, что фреймворки с низким уровнем контроля способны давать прогностические характеристики, конкурентоспособные с полностью контролируемыми методами, потребуются значительные улучшения, чтобы они действительно могли конкурировать со своими полностью контролируемыми аналогами.

Ссылки:

  1. Чен, Янбэй и др. «Извлечение аудиовизуальных знаний с помощью композиционно-сопоставительного обученияМатериалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов (CVPR) 2021.
  2. Франко, Аннализа, Антонио Маньяни и Дарио Майо. «Мультимодальный подход к распознаванию человеческой деятельности на основе данных скелета и RGBПисьма о распознавании образов (2020 г.).
  3. Гао, Цзюнюй, Тяньчжу Чжан и Чаншэн Сюй. «Я знаю отношения: распознавание действий с нулевым выстрелом с помощью двухпотоковых сверточных сетей и графов знанийМатериалы конференции AAAI по искусственному интеллекту 2019 г.
  4. Джегам, Имен и др. «Распознавание действий человека на основе зрения: обзор и проблемы реального мира. Forensic Science International: Digital Investigation (2020).
  5. Цзян, Цзяньвэнь и др. «Разделяй и властвуй: пространственно-временное контекстуальное внимание, управляемое вопросами, для видеоответов на вопросыМатериалы конференции AAAI по искусственному интеллекту 2020.
  6. Кришна, Ранджай и др. «События с плотным субтитром в видеоМатериалы международной конференции IEEE по компьютерному зрению (ICCV) 2017.
  7. Лю, Цзянь, Навид Ахтар и Аджмал Миан. «Skepxels: пространственно-временное представление изображения суставов скелета человека для распознавания действий. Семинары CVPR 2019.
  8. Лю, Ян и др. «Используйте то, что у вас есть: поиск видео с использованием представлений от совместных экспертовпрепринт arXiv arXiv:1907.13487 (2019 г.).
  9. Перретт, Тоби и др. «Временно-реляционные кросстрансформеры для распознавания малокадрового действияМатериалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов (CVPR) 2021.
  10. Сонг, Сиджи и др. «Сквозная пространственно-временная модель внимания для распознавания действий человека по данным скелетаМатериалы конференции AAAI по искусственному интеллекту, 2017 г..
  11. Ван, Хенг и Корделия Шмид. «Распознавание действий с улучшенными траекториямиМатериалы международной конференции IEEE по компьютерному зрению (ICCV) 2013 г.

Примечание редактора. Heartbeat — это интернет-издание и сообщество, созданное участниками и посвященное предоставлению лучших образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая от редакции, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по данным и командам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим нашим авторам и не продаем рекламу.

Если вы хотите внести свой вклад, перейдите к нашему призыву к участию. Вы также можете подписаться на получение наших еженедельных информационных бюллетеней (Еженедельник глубокого обучения и Информационный бюллетень Comet), присоединиться к нам в Slack и следить за Comet в Twitter и LinkedIn, чтобы получать ресурсы, события и многое другое, что поможет вам быстрее создавать лучшие модели машинного обучения.