«Обнаружение схваток», «распознавание спортивных упражнений», «VR тела»… В последнее время увеличилось количество упоминаний этих словосочетаний в статьях, аннотациях научных статей и публикациях на Linkedin. Все это основано на одной интересной проблеме в области компьютерного зрения - оценке поз.

Основная цель оценки позы - обнаружить ключевые точки человеческого тела.

Вы можете узнать больше о задачах оценки позы в других статьях на Medium или на многочисленных ресурсах в Интернете.

Метрики.

Существуют метрики для оценки моделей машинного обучения и расчета значения производительности алгоритма. Логика показателей очень проста для задач оценки позы: вы находите ключевую точку или нет. Но вопрос в том, что считать «найденной точкой». Ответим на него ниже.

В этой статье описаны два показателя: Процент обнаруженных соединений (PDJ) и Сходство ключевых точек объекта (OKS).

Процент обнаруженных суставов (PDJ)

Обнаруженное соединение считается правильным, если расстояние между прогнозируемым и истинным соединением находится в пределах определенной части диагонали ограничивающего прямоугольника.

Использование метрики PDJ подразумевает, что точность определения всех суставов оценивается с использованием одного и того же порога ошибки.

Интуитивная логика: есть базовый элемент - значение, которое показывает размер тела на изображении (например, рост человека, 300 пикселей). Возьмите небольшую часть этого базового элемента, пусть она будет 5% (300 пикселей * 0,05 = 15 пикселей). Нарисуйте круг с центром в истинном положении ключевой точки (стыка) и радиусом 15 пикселей. Посмотрите на предсказанные и истинные суставы, если предсказание в круге - все в порядке, ключевая точка обнаружена.

В исходной реализации метрики базовым элементом является диаметр туловища. Но когда человек поворачивается боком на 2D-изображении, диаметр тела кажется равным 0: горизонтальное расстояние между точками, обозначающими плечи, близко к 0, такая же ситуация с расстоянием между правой и левой сторонами тела. таз. Решение состоит в том, чтобы взять диагональ ограничивающего прямоугольника в качестве базового элемента.

  • di - евклидово расстояние между наземной ключевой точкой и прогнозируемой ключевой точкой;
  • bool (condition) - функция, которая возвращает 1, если условие истинно, и 0, если оно ложно;
  • n - количество ключевых точек на изображении.

Сходство ключевых точек объекта (OKS)

Он рассчитывается из расстояния между предсказанными точками и точками наземной истины, нормализованными по шкале человека. Константы Scale и Keypoint необходимы, чтобы уравнять важность каждой ключевой точки: расположение шеи более точное, чем расположение бедра . - http://cocodataset.org/

  • d i - евклидово расстояние между наземной ключевой точкой и прогнозируемой ключевой точкой;
  • s - масштаб: квадратный корень из площади сегмента объекта;
  • k - константа для каждой ключевой точки, при которой элементы управления отключаются;

Константы для суставов, рассчитанные группой исследователей из COCO.

Интуитивная логика такая же, как и в метрике PDJ. Но в этой реализации для каждой ключевой точки есть коэффициент (для плеч и коленей круги могут быть больше, чем для носа или глаз). Кроме того, рассчитываем масштаб (в PDJ это была диагональ ограничивающего прямоугольника).

Показатель OKS показывает ТОЛЬКО, насколько близка прогнозируемая ключевая точка к истинной ключевой точке (значение от 0 до 1).

Вторая часть этой метрики - средняя точность с порогом. Во всех статьях используется пороговое значение 0,5 или 0,75. Сравните значение OKS с порогом: если OKS больше порогового значения - контрольная точка обнаружена. Вот и все.

Метрику OKS вычислить сложнее, чем метрику PDJ.

Идеальные прогнозы будут иметь OKS = 1, а прогнозы, для которых все ключевые точки отклонены более чем на несколько стандартных отклонений ski, будут иметь OKS ≈0.