Новый многопользовательский набор данных с несколькими объектами для совместной 3D-оценки положения руки и объекта

Это краткое изложение исследования – лишь одно из многих, которые еженедельно публикуются в информационном бюллетене для ученых, занимающихся искусственным интеллектом. Чтобы начать получать еженедельную рассылку, зарегистрируйтесь здесь.

Оценка позы — важный шаг к пониманию людей на изображениях и видео с многочисленными приложениями для понимания действий, взаимодействия человека и робота, наблюдения, захвата движения и многого другого.

Однако, когда дело доходит до оценки позы руки-объекта, современные методы по-прежнему терпят неудачу из-за больших взаимных перекрытий и отсутствия наборов данных, специфичных для трехмерной оценки позы для взаимодействия рука+объект. Кроме того, даже когда синтетические изображения используются для обучения, аннотированные изображения реального мира по-прежнему необходимы для проверки модели.

Совместный 3D-набор данных для оценки положения руки и объекта

Исследователи недавно предложили HO-3D, крупномасштабный набор данных о различных взаимодействиях рук и объектов с 3D-аннотациями позы руки и объекта. Они также представили методы для эффективного аннотирования и прогнозирования на основе набора данных.

HO-3D основан на глобальной оптимизации, которая использует ограничения по глубине, цвету и времени для эффективного аннотирования последовательностей, которые исследователи использовали для обучения новому подходу к прогнозированию как трехмерных поз руки, так и объекта на основе одного цветного изображения. Набор данных HO-3D состоит из последовательностей RGB-D 8 разных людей, манипулирующих разными объектами, и ручных аннотаций внутри представлений для оценки 3D-поз.

Возможное использование и эффекты

Зная, что более качественные данные означают точность модели, HO-3D важен для обеспечения эффективного обучения для разработки высоконадежных моделей. Предлагаемый набор данных побуждает исследователей разрабатывать более совершенные методы аннотирования, которые можно применять для захвата и простого аннотирования последовательностей с помощью одной камеры RGB-D, чтобы облегчить получение дополнительных обучающих данных для улучшенной оценки позы руки и объекта, что будет способствовать более эффективным приложениям в области компьютерного зрения. и робототехника.

Подробнее: https://arxiv.org/abs/1907.01481

Спасибо за чтение. Пожалуйста, комментируйте, делитесь и не забывайте подписаться на нашу еженедельную рассылку, чтобы получать самые свежие и интересные исследовательские работы! Вы также можете следить за мной в Twitter и LinkedIn. Не забудьте поставить 👏, если вам понравилась эта статья. Ваше здоровье!