Единая глубокая платформа для совместной трехмерной оценки позы и распознавания действий с одной RGB-камеры

Распознавание действий человека играет ключевую роль в различных областях, включая роботизированное зрение, интеллектуальное наблюдение, взаимодействие человека и робота и многое другое. И несмотря на то, что за последние несколько лет были достигнуты значительные успехи, создание точной, быстрой и эффективной системы распознавания действий в невидимых видеороликах по-прежнему остается сложной задачей из-за ряда препятствий, таких как изменение точки обзора камеры, окклюзии, фона. , скорость движения и др.

Традиционные подходы к распознаванию действий на основе видео фокусируются на извлечении вручную созданных локальных особенностей и построении дескрипторов движения из последовательностей RGB.

Многие пространственно-временные представления человеческого движения, такие как SIFT, HOF или кубоиды, были предложены в прошлом и широко использовались с успехом. Тем не менее, подходы страдают ограничением отсутствия трехмерной структуры сцены, а распознавания действий человека на основе только информации RGB недостаточно для решения текущих проблем в этой области.

Модель для совместной 3D-оценки позы с одной RGB-камеры

Недавно исследователи представили основанную на глубоком обучении многозадачную модель для совместной трехмерной оценки позы человека и распознавания действий из видеопоследовательностей RGB. Подход происходит в два этапа. Во-первых, исследователи внедряют 2D-детектор поз в реальном времени для определения точного местоположения пикселей важных ключевых точек тела, а двухпоточная нейронная сеть разработана и обучена для преобразования обнаруженных 2D-ключевых точек в 3D-позы.

Во-вторых, они развернули модель поиска эффективной нейронной архитектуры (ENAS), чтобы найти оптимальную сетевую архитектуру, которая используется для моделирования пространственно-временной эволюции предполагаемых трехмерных поз с помощью промежуточного представления на основе изображений и выполнения распознавания действий. Оценка, проведенная на наборах данных Human3.6M, MSR Action3D и SBU Kinect Interaction, подтвердила эффективность предложенного метода.

Возможное использование и эффекты

Предлагаемый метод демонстрирует, что трехмерные позы человека могут быть эффективно оценены с помощью простого проектирования сети и методологии обучения по ключевым точкам 2D. Кроме того, он требует небольшого вычислительного бюджета для обучения и логического вывода.

Однако структура, естественно, зависит от качества вывода 2D-детекторов и не может восстановить 3D-позы из 2D-неудачного вывода. Чтобы решить эту проблему, исследователи в настоящее время расширяют исследование, добавляя в модель дополнительные визуальные доказательства для повышения производительности. Предварительные результаты обнадеживают.

Подробнее: https://arxiv.org/abs/1907.06968

Спасибо за чтение. Пожалуйста, комментируйте, делитесь и не забывайте подписаться на нашу еженедельную рассылку, чтобы получать самые свежие и интересные исследовательские работы! Вы также можете следить за мной в Twitter и LinkedIn. Не забудьте поставить 👏, если вам понравилась эта статья. Ваше здоровье!