В последнее время появились успешные методы, использующие преобразователи для оценки человеческих поз в 3D на основе последовательных 2D-данных. Один из таких методов под названием PoseFormer достиг впечатляющих результатов, анализируя пространственные отношения между человеческими суставами в каждом видеокадре и рассматривая движение между кадрами с использованием слоев преобразования. Однако в реальных ситуациях PoseFormer и подобные методы сталкиваются с двумя ограничениями:

  1. Длина входной совместной последовательности.
  2. Точность обнаружения 2D стыков. Существующие методы часто используют автоматическое внимание ко всем кадрам входной последовательности, что становится дорогостоящим в вычислительном отношении при попытке повысить точность оценки с большим количеством кадров, и они борются с шумом, возникающим из-за несовершенного обнаружения двумерных соединений.

Для решения этих проблем они представляют PoseFormerV2. Этот новый метод эффективно обрабатывает длинные последовательности совместных данных, представляя их в более компактной форме в частотной области. Это позволяет нам расширить анализ взаимосвязей соединений и повысить устойчивость к обнаружению зашумленных 2D-соединений. PoseFormerV2 основан на оригинальном PoseFormer с минимальными изменениями, эффективно сочетая функции как во временной, так и в частотной областях. Это приводит к лучшему балансу между скоростью и точностью по сравнению с его предшественником. Благодаря обширным экспериментам с двумя широко используемыми наборами данных (Human3.6M и MPI-INF-3DHP) они демонстрируют, что предлагаемый ими подход значительно превосходит исходный PoseFormer и другие методы, основанные на преобразовании.

Предварительно

ПозаБывший

На следующем рисунке показана общая архитектура PoseFormer. В следующем абзаце я объясню все подробности о PoseFormer.

Кодер пространственного преобразователя отвечает за захват пространственных отношений между совместными вложениями каждого кадра, представленными как z^i_0 ∈ R^{1×J×c}. В этом процессе используется механизм внутреннего внимания. Каждый блок трансформатора принимает J жетонов в качестве входных данных. Выход кодера пространственного преобразователя после L слоев для i-го кадра представляется как z^i_L ∈ R^{1×J×c}.

После этого представления для каждого кадра выравниваются и объединяются, что дает вход Z_0 ∈ R^{F ×(J · c)} для кодера временного преобразователя.

Кодер временного преобразователя работает аналогично. Вход Z_0 комбинируется с обучаемым временным позиционным вложением E_{T_Pos} ∈ R^{F ×(J · c)} для включения информации, относящейся к индексу, для каждого кадра. Временной кодировщик состоит из M слоев преобразования, которые эффективно моделируют зависимости между кадрами на протяжении всей последовательности. Выход временного кодера представляется как ZM ∈ R^{F × (J · c)}.

На этом этапе количество токенов для каждого слоя преобразователя равно F, что соответствует длине входной последовательности.

Голова регрессии отвечает за оценку трехмерного положения центрального кадра в последовательности. В нем используется простой подход: одномерная свертка используется для сбора временной информации, а линейная проекция генерирует окончательное представление позы y ∈ R^{1×(J·3)}. Это представление состоит из J соединений, каждое из которых имеет трехмерную координату (x, y, z).

Ограничение PoseFormer

Моделирование зависимостей между суставами в каждом кадре и захват движений человека в кадрах с использованием слоев преобразования — это простой подход. Этот метод плотного моделирования приводит к повышению точности оценки позы. Однако это связано с вычислительными проблемами, особенно когда длина входной последовательности увеличивается. Вычисления, необходимые для само-внимания, растут квадратично с номером маркера, который относится к объединенному номеру в пространственном кодировщике и длине последовательности во временном кодере. Это становится особенно проблематичным, когда длина входной последовательности становится больше.

Хотя номер маркера для слоев пространственного преобразователя (номер соединения) остается постоянным независимо от номера кадра, важно отметить, что длина последовательности косвенно влияет на вычислительные требования пространственного кодировщика. Это связано с тем, что графические процессоры имеют ограниченные возможности распараллеливания. Следовательно, увеличение длины последовательности влияет на вычислительную эффективность пространственного кодера в реальных сценариях.

Помимо проблем с эффективностью, оригинальный метод PoseFormerV1 также чувствителен к качеству обнаружения 2D-соединений, используемого в качестве входных данных.

Методология

Частотное представление скелетной последовательности

Предлагаемый подход включает преобразование входной скелетной последовательности в частотную область с использованием дискретного косинусного преобразования (DCT) и использование только подмножества низкочастотных коэффициентов. Коэффициенты DCT кодируют различные уровни временной информации для входного временного ряда. Низкочастотные коэффициенты фиксируют общую форму или контур последовательности, в то время как высокочастотные коэффициенты представляют более мелкие детали, такие как флуктуации или резкие изменения.

Чтобы проиллюстрировать, почему они выбрали такое представление, давайте рассмотрим пример совместной траектории из 81 кадра действия «Направления» из набора данных Human3.6M, обнаруженной с помощью метода CPN. Они показывают реконструкцию траектории с использованием первых 3, 9 и 27 коэффициентов DCT на рисунке 3. По мере увеличения количества используемых коэффициентов DCT реконструированная траектория становится ближе к необработанным входным данным, но становится менее гладкой. Имея всего 3 коэффициента DCT (представленные оранжевой кривой), они фиксируют общую тенденцию исходной траектории. С коэффициентами 9 и 27 (представлены розовой и зеленой кривыми) они сохраняют характеристики необработанной последовательности, удаляя при этом высокочастотный шум (зигзаги).

Основываясь на этих наблюдениях, они используют небольшое количество информативных низкочастотных компонентов DCT из входной совместной последовательности в качестве компактного представления без шума в своей работе. Это значительно уменьшает эффективную длину входной последовательности и повышает устойчивость их модели к шуму, присутствующему при обнаружении 2D-соединений.

Архитектура

Кодер пространственного преобразования работает следующим образом: задана двухмерная скелетная последовательность x ∈ R^{F ×J ×2}, где F представляет длину последовательности (обычно 81 кадр) и J представляет количество суставов, они сначала выбирают меньшее подмножество кадров, обозначаемое как F '(обычно намного меньше, чем F), центрированное вокруг центра последовательности (индекс кадра 0 на рисунке выше). Эти выборочные кадры, обозначенные как x ∈ R^{F’×J×2}, затем предоставляются в качестве входных данных пространственному кодировщику.

Пространственный кодер обрабатывает выбранные кадры и выдает выходные данные, обозначаемые как z ∈ R^{F’×(J·c)}, которые представляют функции уровня кадра во временной области. Дизайн пространственного кодировщика напрямую вдохновлен PoseFormerV1.

Чтобы уловить долгосрочную человеческую динамику, присутствующую в исходной последовательности, они используют ее представление в частотной области. Выход zTime из пространственного кодера считается «недальновидным», поскольку его рецептивное поле (F’) ограничено по сравнению со всей длиной последовательности (F).

Низкочастотные коэффициенты DCT. Чтобы эффективно использовать информацию дальнего действия, они преобразуют полную последовательность x ∈ R^{F × J × 2} в коэффициенты DCT, обозначаемые как C ∈ R^{F × J × 2}. Затем они применяют фильтр нижних частот и сохраняют только первые N коэффициентов C’ ∈ R^{N × J × 2} для каждой совместной траектории. Этот выбор сохраняет временную информацию исходной последовательности, устраняя при этом высокочастотный шум. Низкочастотные коэффициенты C’ сглаживаются и линейно проецируются для получения z^{Freq} ∈ R^{N ×(J ·c)}, что представляет собой вложение частотных коэффициентов.

Затем z^{Freq} комбинируется с обучаемым частотным позиционным вложением E_{FPos}, аналогичным ETPos, используемому в PoseFormerV1. Функции как из временной области (z^{Time}), так и из частотной области (z^{Freq}) объединяются вместе, что приводит к комбинированному представлению. Этот процесс формулируется как

Слияние частотно-временных характеристик. В своем подходе они используют слои преобразователя для моделирования временных зависимостей между кадрами, подобно PoseFormerV1. Однако, в отличие от PoseFormerV1, который извлекает функции только во временной области, предлагаемый ими метод сочетает в себе функции как во временной, так и в частотной областях. Чтобы преодолеть разрыв между этими двумя областями, они вносят некоторые модификации в слои ванильного трансформатора.

Во-первых, механизм внутреннего внимания является общим для функций во временной и частотной областях. Однако для каждого домена используются отдельные сети прямой связи. Кроме того, они включают FreqMLP (частотный многоуровневый персептрон) в сетях прямой связи специально для функций во временной области zTime (см. рис. 4b и 4c).

В своем FreqMLP они применяют дискретное косинусное преобразование (DCT) перед ванильным MLP и обратное дискретное косинусное преобразование (IDCT) после MLP. Идея этого состоит в том, чтобы отфильтровать высокочастотный шум от функций частотной области с помощью фильтра нижних частот. Однако возможно, что некоторые детализированные характеристики человеческого движения, такие как быстрые локальные движения, также могут быть потеряны в виде шума. Чтобы решить эту проблему, FreqMLP действует как обучаемый фильтр частотной области, позволяя нам динамически регулировать вес каждой частотной составляющей при встраивании двумерных совместных координат (т. е. функций во временной области). Он служит дополнением к частотным характеристикам. Эти модули сформулированы следующим образом:

В данной формулировке MSA представляет самовнимание с несколькими головками, а F’ представляет количество выбранных центральных кадров. Крайне важно признать, что операция конкатенации увеличивает количество токенов для преобразователя. Однако они решают эту проблему, ограничивая пространственный кодировщик наблюдением только за ограниченным числом центральных кадров и включая небольшую долю низкочастотных коэффициентов DCT для расширения его восприимчивого поля. Этот подход позволяет гибко сократить общие вычисления. Более того, это не только снижает вычислительные затраты, но и повышает устойчивость модели к шуму по сравнению с PoseFormerV1.

В этой статье я кратко излагаю свою точку зрения на бумагу. Я надеюсь, что вы сможете узнать больше об этом после прочтения. Я также предлагаю ссылку на видео о статье, надеюсь, вам понравится!!!!

Если вам понравилась статья, пожалуйста, дайте мне немного 👏, поделитесь статьей и следуйте за мной, чтобы узнать больше о мире мультиагентного обучения с подкреплением. Вы также можете связаться со мной в LinkedIn, Instagram, Facebookи Github.