[Let’s Know Series] - №1

Оценка гомографии

Этот небольшой фрагмент описывает уравнения для оценки матрицы гомографии 3 × 3. Сначала мы обсудим вычисление по внутренним и внешним параметрам камеры; и, где необходимо, свяжите формулировку с реальными техническими характеристиками камеры. Затем мы представляем методологию вычислений с использованием двух наборов соответствующих точек, которые копланарны в своих соответствующих плоскостях и избегают коллинеарных вырождений.

1ГОМОГРАФИЯ ПО ПАРАМЕТРАМ КАМЕРЫ

а. Базовая настройка

Давайте рассмотрим точку в 3D мировом пространстве как тройку

Затем мы можем сопоставить эту 3D точку с точкой в ​​произвольном пространстве следующим образом:

где C _int - это внутреннее, а C _ext - внешнее матрица камеры соответственно. Точка (x _a , y _a , z _a ) в произвольном пространстве, может быть сопоставлен с пространством 2D изображения с помощью следующего масштабного коэффициента:

Таким образом, когда у нас есть точка в произвольном пространстве, мы можем просто масштабировать ее координаты, чтобы получить координаты 2D в (захваченном) пространстве изображения.

б. Внутренняя матрица

Давайте теперь посмотрим на форму C _int. Рассмотрим камеру с фокусным расстоянием f (в мм) с фактическим размером сенсора (x _S, y _S) (в мм), а ширина и высота захваченного изображения (эффективный размер сенсора) как (w, h ) (в пикселях).
оптический центр (o _ x , o _ y) камеры тогда (w / 2 , h / 2). Теперь мы можем указать C _int следующим образом:

Таким образом, можно заметить, что все записи в C _int указаны в пикселях . Следующее может рассматриваться как эффективное фокусное расстояние в пикселях в направлениях x и y соответственно.

c. Внешняя матрица

C _ext состоит из матрицы поворота R и матрицы перевода T следующим образом:

Кортеж (T _x, T _y, T _z ) указывает на перевод камеры в мирово-пространственные координаты. Обычно мы можем считать, что камера не имеет перевода x и y (T _x = T _y = 0), а высота положения камеры от земли (в мм) равна T _z.

Если θ, φ, ψ быть ориентации камеры относительно осей x, y и z соответственно (как углы в радианах), мы можем получить r _ ij; i, j ∈ {1,2,3} следующим образом:

d. Гомография

Матрица гомографии H, которую необходимо оценить, представляет собой матрицу 3 × 3 и включает в себя части как внутренней, так и внешней матрицы камеры следующие:

Сказанное выше может быть непосредственно установлено из того факта, что когда мы ищем плоскую поверхность в мировоззрении для вычисления гомографии, Z _w = 0, и, следовательно, ,

Следовательно, гомография H отобразит точку зрения в произвольном пространстве. Этого пространства вполне достаточно, если нам просто нужно вычислить расстояния между любыми двумя заданными точками. Однако в действительности координаты в пиксельном пространстве будут вычисляться с учетом масштабного коэффициента, указанного в формуле. (2).

2⌉ ГОМОГРАФИЯ ИЗ ТОЧЕК КОПЛАНАРА

а. Базовая настройка

Гомография позволяет нам связать две камеры, наблюдающие одну и ту же плоскую поверхность; И камеры, и поверхность, которую они просматривают (создают изображения), расположены в координатах мировоззрения. Другими словами, два 2D изображения связаны между собой гомографией H, если оба смотрят на одну и ту же плоскость под другим углом . Отношения омографии не зависят от просматриваемой сцены.

Рассмотрим два таких изображения, просматривающих одну и ту же плоскость в мировоззрении.
Пусть (x _ 1, y _ 1) будет точкой на первом изображении, и (x ˆ_1, y ˆ_1) - соответствующая точка на втором изображении. Затем эти точки связаны оценкой гомографии H следующим образом:

Таким образом, любая точка на первом изображении может быть сопоставлена ​​с соответствующей точкой на втором изображении посредством гомографии, и операция может рассматриваться как операция деформации изображения.

б. Гомография

Давайте параметризуем матрицу гомографии 3 × 3 H следующим образом:

Таким образом, оценка H требует оценки 9 параметров. Другими словами, H имеет 9 степеней свободы. Если мы выберем два набора соответствующих точек, [копланарных] в их соответствующих плоскостях, следующим образом:

[co-planar] The homography relation is provable only under the co-planarity of the points, since everywhere, we are assuming that the z-coordinate of any point in any image is 1. In practice, for instance, one may thus choose four points on a floor, or a road, which indicate a nearly planar surface in the scene.

Затем из уравнения. (8, 9, 10), мы можем решить следующее, чтобы оценить H:

Где (x ˆ _ i, y ˆ _ i ) ∈ T ˆ _1 и (x _i, y _i) ∈ T _1 для i, j ∈ {1,2,3 , 4}. Затем это будет преобразовано в следующую систему уравнений, которую необходимо решить:

Теперь у нас есть 8 уравнений, которые можно использовать для оценки 8 степеней свободы H (кроме h _ 33). Для этого нам потребуется, чтобы указанная выше матрица 8 × 8 имела полный ранг (без избыточной информации) в том смысле, что ни одна из строк не является линейно зависимой. Это означает, что нет трех точек ни в T _1, ни в T ˆ _1 должен быть коллинеарным.

Затем нам нужно заняться h _33. Обратите внимание, что в формуле. (13), если h _33 предварительно приравнено к 1, мы просто сдвинем весь набор h _ij гиперплоскости к другой системе отсчета, но их направление не изменится. На практике, таким образом, мы просто увидели бы другое значение z _a при сопоставлении координат 2D изображения в соответствии с Уравнение (8), которые впоследствии будут разделены в формуле. (9). Следовательно, мы сохраняем h _33 = 1 в H, и уравнение. Затем уравнение (13) может быть решено с использованием оценки методом наименьших квадратов.

В OpenCV можно использовать функцию findHomography, которая делает то же самое, что описано выше. Он принимает два кортежа из четырех соответствующих точек и вычисляет гомографию H с h _33 всегда и строго 1. Любая точка изображения 2D будет затем сопоставлена ​​с z _a усиленной версией соответствующей точки в другой плоскости. .

c. Гомография с помощью гипотетической камеры

В различных приложениях, таких как виртуальная реклама, измерение абсолютного расстояния для умного планирования города, необходимо предположить наличие гипотетической камеры C и вычислить матрицу гомографии, которая может проецировать любую точку наблюдаемой сцены на плоскость изображения, захваченного с помощью C.

Представить C с высоты птичьего полета (вид сверху) - это [популярный выбор]. В таком случае можно выбрать T _1 с четырьмя копланарными точками в наблюдаемой сцене, в то время как соответствующий кортеж T ˆ _1 может просто иметь четыре точки в качестве углов гипотетического прямоугольника с евклидовой системой координат с центром вокруг (0, 0). Затем любую точку сцены можно сопоставить с ее видом с высоты птичьего полета, то есть как она может выглядеть сверху.

[popular choice] There has been a recent surge of research papers, which exploit the bird's eye view (BEV) for behavioural prediction and planning in autonmous driving.

Обратите внимание, что отображение на основе гомографии - это только искаженная версия наблюдаемого изображения, и что новая информация в сцене не синтезируется. Например, если мы наблюдали только фронтальный вид человека в сцене, его вид с высоты птичьего полета, на самом деле не начнем говорить о том, как у человека волосы сверху; но он будет деформировать только видимую часть его головы, видимую спереди, так, что это будет примерно похоже на вид сверху.

d. Отрицательные значения в проекциях с гомографией

Обратите внимание, что при решении для H нет ограничения, что точки проекции в произвольном пространстве должны быть положительными, то есть x _ a, y _ a и z _ a может быть отрицательным. После масштабирования на z _ a это будет означать, что сопоставленная точка (x ˆ_i , y ˆ_i) может быть отрицательным.

Это может показаться интуитивно нежелательным, поскольку координаты изображения обычно считаются положительными. Однако это можно рассматривать только как сдвиг опорной оси, и после сопоставления всего изображения величина сдвига может быть соответствующим образом решена.

💡 Remark - The treatment presented here, may not be akin to 3D reconstruction procedures, which may involve estimation of multiple-view homographies', sometimes via a hypothesized view projection. Multi-view homographies, have been shown to possess specific algebraic structures, but 3D reconstruction from 2D scenes largely remains an unsolved problem.