Монокулярное обнаружение 3D-объектов - это задача рисования трехмерной ограничительной рамки вокруг объектов в 2D-изображении RGB. Эта задача вызвала большой интерес в индустрии автономного вождения из-за потенциальных перспектив снижения стоимости и увеличения модульного резервирования. Задача обоснования 3D с помощью одного входного 2D очень сложна, и оценка ориентации транспортного средства является одним из важных шагов к этой важной задаче.

При обнаружении монокулярных 3D-объектов в литературе постоянно появляется одна важная концепция - разница между аллоцентрической и эгоцентрической ориентацией. Недавно я объяснил разницу многим своим коллегам, и я думаю, что сейчас хорошее время написать об этом небольшой пост в блоге.

Обратите внимание, что этот пост посвящен концепции трехмерной ориентации при автономном вождении. Если вы хотите узнать о современных способах регрессии ориентации, прочтите мой предыдущий пост о Мультимодальной целевой регрессии, в частности о регрессии ориентации.

Эгоцентрический против аллоцентрического

Понятия эгоцентрический и аллоцентрический пришли из области пространственного познания человека. Однако эти концепции в контексте восприятия при автономном вождении довольно специфичны: эгоцентрическая ориентация означает ориентацию относительно камеры, а аллоцентрическая ориентация - это ориентация относительно объекта (т.е., транспортных средств, отличных от транспортного средства эго).

Эгоцентрическая ориентация иногда называется глобальной ориентацией (или вращением вокруг оси Y в KITTI, как упоминается ниже) транспортных средств в качестве ориентира. кадр относится к системе координат камеры эго-транспортного средства и не изменяется, когда интересующий объект перемещается с одного транспортного средства на другое. Аллоцентрическую ориентацию иногда называют локальной ориентацией или углом наблюдения, поскольку система отсчета изменяется в зависимости от интересующего объекта. Для каждого объекта существует одна аллоцентрическая система координат, и одна ось в аллоцентрической системе координат совмещена с лучом, исходящим от камеры к объекту.

Чтобы проиллюстрировать эту простую идею, документ FQNet (Сеть оценки глубокой подгонки для обнаружения монокулярных 3D-объектов, CVPR 2019) содержит отличную иллюстрацию.

В (а) все ориентации автомобиля в целом обращены вправо, но местная ориентация и внешний вид будут меняться, когда автомобиль движется слева направо. На (b) глобальная ориентация автомобиля различается, но как локальная ориентация в координатах камеры, так и внешний вид остаются неизменными.

Очевидно, что внешний вид объекта на монокулярном изображении зависит только от локальной ориентации, и мы можем только регрессировать локальную ориентацию автомобиля на основе внешнего вида. Еще одна замечательная иллюстрация - из статьи Deep3DBox (Оценка трехмерной граничной рамки с использованием глубокого обучения и геометрии, CVPR 2017).

Автомобиль на кадрированных изображениях вращается, в то время как направление автомобиля в трехмерном мире остается постоянным - следуя прямым линиям полосы движения. Только по изображениям слева практически невозможно определить глобальную ориентацию автомобиля. Контекст автомобиля на всем изображении имеет решающее значение для вывода о глобальной ориентации. С другой стороны, локальную ориентацию можно полностью восстановить только по фрагменту изображения.

Обратите внимание, что, следуя соглашению KITTI о нулевом крене и нулевом шаге, ориентация сводится к простому рысканию. Таким образом, две указанные выше ориентации также называются глобальным рысканием и локальным рысканием.

Преобразование локального рыскания в глобальное

Чтобы вычислить глобальное рыскание с использованием локального рыскания, нам нужно знать направление луча между камерой и объектом, которое можно вычислить, используя местоположение объекта на 2D-изображении. Преобразование - это простое добавление, как показано на диаграмме ниже.

Угол для направления луча может быть получен с помощью ключевой точки из положения ограничивающего прямоугольника и внутренних характеристик камеры (основная точка и фокусное расстояние) камеры. Обратите внимание, что есть разные варианты выбора ключевой точки двухмерной ограничительной рамки. Некоторые популярные варианты:

  • центр ящиков извещателей (можно обрезать)
  • центр амодальных боксов (с предполагаемым расширением для закрытого или усеченного объекта)
  • проекция 3D ограничивающего прямоугольника на изображение (может быть получена из наземной истины лидара 3D ограничивающего прямоугольника)
  • нижний центр двухмерной ограничительной рамки (часто предполагается, что она находится на земле)

Суть в том, что, если транспортное средство не находится действительно близко или сильно усечено или перекрыто, вышеуказанные методы дадут оценку угла на расстоянии примерно 1-2 градуса друг от друга.

Что говорит KITTI?



В наборе данных KITTI по ​​обнаружению 2D-объектов наземная истина обеспечивает два угла для каждого ограничивающего прямоугольника:

  • альфа: угол обзора объекта, диапазон [-pi..pi]
  • Rotation_y: вращение вокруг оси Y в координатах камеры [-pi..pi]

Указанные выше два угла соответствуют локальному (аллоцентрическому) рысканью и глобальному (эгоцентрическому) рысканью соответственно. Эти значения, по-видимому, взяты из наземной истины трехмерной ограничительной рамки, основанной на данных лидара. Это упрощает оценку угла на 2D-изображениях.

У KITTI есть одна официальная метрика для оценки ориентации: Среднее сходство ориентации (AOS), значение от 0 до 1, а 1 представляет собой точный прогноз. Я не буду здесь вдаваться в подробности о метрике, но она очень похожа на идею средней точности, а подробности можно найти в оригинальной статье KITTI.

В литературе есть еще одна метрика, популяризируемая 3D RCNN, средняя угловая ошибка (AAE), определение которой дано ниже.

Выводы

  • Можно оценить локальную (аллоцентрическую) ориентацию (рыскание) по локальному фрагменту изображения.
  • Невозможно оценить глобальную (эгоцентрическую) ориентацию (рыскание) по локальному фрагменту изображения.
  • Имея внутреннюю камеру (основная точка, фокусное расстояние) и глобальная информация о фрагменте изображения, можно преобразовать локальную ориентацию в глобальную ориентацию.
  • Регресс ориентации точки зрения - одна из самых сложных проблем регрессии в глубоком обучении. Обратитесь к моему предыдущему сообщению о Мультимодальной целевой регрессии.

Скоро напишу обзор монокулярной детекции 3D-объектов. Будьте на связи!