Аннотация: в этой статье предлагается унифицированная система слияния данных датчиков с учетом качества данных для создания плотных карт глубины на основе данных LiDAR и датчиков камеры.

1. Введение

В автономном вождении сочетание нескольких датчиков является широко распространенным стилем настройки восприятия. Известно, что слияние датчиков было горячей темой для восприятия, включая слияние данных низкого уровня, слияние пространства функций среднего уровня и слияние задач высокого уровня (таких как обнаружение, отслеживание, локализация и сегментация). Процесс слияния можно классифицировать как раннее или позднее слияние, первое означает, что данные объединяются до начала слияния, а второе - объединение результатов после некоторой критической работы, такой как извлечение признаков, сопоставление признаков и предложения объектов и т. Д.

В этой статье, по-видимому, рассматривается уровень слияния данных, оценка карты глубины. Карта глубины является реконструкцией либо из моно / стерео изображений, датчиков глубины (таких как Kinect), либо проекции из облака точек LiDAR. LiDAR измеряет диапазон с высокой точностью (1 миллиметр) и ведет себя стабильно, только данные разрежены (ограничены линией сканирования), с ограниченным диапазоном (обычно не более 100 метров) и низкой частотой кадров (10 Гц); Датчики глубины, подобные Kinect, могут иметь более высокое разрешение, но меньший диапазон (менее 10 метров), на который влияет сильный свет (например, солнечный свет), поэтому в основном используются в помещении; Стереокамера оценивает глубину на основе стереосогласования и триангуляции с высоким разрешением, но плохой надежностью; Моно изображение недавно использовалось для оценки глубины с помощью глубокого обучения. Стоит отметить, что камеры и датчики глубины Kinect захватывают данные с более высокой частотой кадров (30 кадров в секунду). Таким образом, необходимо создать механизм объединения нескольких датчиков для оценки глубины, чтобы использовать преимущества каждого датчика.

Интересно отметить, что структура слияния глубины из нескольких датчиков с глубоким обучением очень похожа на оценку глубины из моно изображения, например, структура кодировщика-декодера, трехмерные геометрические ограничения (стереорежим), ограничения движения (движение эго и движение объекта), нормаль к поверхности и согласованность краев, семантическая сегментация для контекста и механизма внимания и т. д. Разница заключается в том, что слияние по глубине противоречит характеристике разреженности. Поэтому в некоторых исследованиях обсуждались варианты CNN для обработки таких данных, такие как разреженная инвариантная свертка [1], нормализованная свертка [2] и расширенная свертка [3]. Кроме того, при обучении модели слияния глубины иногда не хватает плотных данных глубины, что может не подходить для контролируемых методов, таких как Дискриминатор GAN (генеративная состязательная сеть).

Важной проблемой для слияния по глубине, как и для слияния на уровне задач, является требование унифицированной модели для обработки неполных или недопустимых данных какого-либо датчика.

Чжан и Фанкхаузер [15] предложили метод завершения глубины из изображения RGB-D, который запускает две подсети для оценки нормали к поверхности и границ объекта соответственно, затем он реализовал оценку плотной глубины при регуляризации глобальной целевой функции слияния через разреженную глубину карта. Он действительно использовал информацию из пикселей RGB в качестве руководства, однако движение, контекст сегментации и геометрические ограничения не учитывались. Другим недостатком является отсутствие карты достоверности (эквивалентной карте бинарной маски на входе разреженной карты глубины), которая может обеспечить механизм внимания в процессе слияния.

В работе Google, получившей название PLIN [16], создается последовательность пространственно-временных облаков точек из трех последовательных изображений RGB с камеры и двух разреженных карт глубины с LiDAR. Предположим, что датчики синхронизируются по времени, но частота кадров другая (один составляет 20 кадров в секунду, а другой - 10 кадров в секунду). Он использовал информацию о движении (оптический поток) и контекст сегментации для слияния глубины. Вопросы улучшения могут заключаться в рассмотрении геометрических ограничений (стереоданные для обучения), нормалей к поверхности и ограничений по краям. Кроме того, разделение оптического потока на движение камеры и остаточное движение объекта может обеспечить лучшую производительность оценки движения.

В этой статье мы предлагаем качественный унифицированный метод объединения датчиков для создания плотных карт глубины, который включает движение, границу, нормаль к поверхности, семантическую сегментацию и достоверность и т. Д. Он может автоматически выбирать надежные данные датчика на месте (облако точек LiDAR и камера изображение) для обработки оценки глубины. Здесь мы предполагаем, что LiDAR и камера синхронизированы по времени. Выбранные данные работают с одинаковой частотой кадров.

Побочный эффект этой структуры заключается в том, что интерполяция разреженной карты глубины, созданной из облака точек LiDAR, руководствуется изображением, то есть завершением глубины. Надежные дискретные данные о глубине, спроецированные из облака точек LiDAR, обеспечивают предварительную или регуляризацию для улучшения оценки глубины по изображениям, что приводит к повышению точности и надежности системы оценки глубины.

2. Совместное глубинное слияние с лидаром и камерами

На рисунке 1 представлена ​​системная диаграмма слияния по глубине, где структура формы «песочные часы» представляет сеть кодер-декодер, левая половина - кодер, а правая половина - декодер.

Во-первых, есть модули проверки качества данных датчиков для LiDAR и камеры соответственно для управления вводом данных, то есть переключатели A, B и C. Модуль «Оценка качества изображения» проверяет качество входного изображения по традиционному изображению и критерий видеоиндустрии, такой как PSNR (пиковое отношение сигнал / шум) и SSIM (структурное сходство).

Качество облака точек LiDAR проверяется в модуле «Оценка качества облака точек». Здесь мы думаем, что проверка качества данных LiDAR также связана с их совмещением с изображением камеры. Требуется проецировать данные облака точек на плоскость изображения камеры на основе параметров калибровки. Затем за вычислением информации о градиенте для проецируемой карты глубины следует вычисление корреляции с информацией о краях изображения, т. Е.

где w - размер окна, f индекс изображения, (i, j) расположение пикселя в изображении , p 3-мерная точка облака точек, X - Данные LiDAR и D карта градиента изображения. Если качество изображения тоже плохое, мы можем полагаться только на сами данные LiDAR. Вместо этого мы используем квадратичную энтропию Реньи (RQE) как

с G (ab) как функцией распределения Гаусса со средним значением a и дисперсией b. Фактически, RQE определяет четкость распределения облака точек в рамках модели гауссовой смеси (GMM), которая оказывается критерием качества.

Если есть только датчик LiDAR, то переключатель D поменяется местами, чтобы данные точки LiDAR могли генерировать плотную карту глубины. Из-за отсутствия руководства со стороны изображения RGB доступной сетью для использования будет разреженный инвариантный CNN [1] или нормализованный CNN [2]; первый вводит разреженную карту глубины и маску разреженности, полученную из модуля «Перспективная проекция», а второй - разреженную карту глубины и карту достоверности. На рисунке 1 показан первый вариант; Затем последний показан на рисунке 2.

При отсутствии датчика LiDAR на транспортном средстве единственным используемым датчиком является камера (моно или бинокль), управляемая переключателем D, то есть оценка глубины с камер. Во-первых, мы предполагаем, что используется монофоническая камера, камера входит в «Кодировщик» для построения карты функций, архитектура которой может быть ResNet [4] или DenseNet [5]. Затем карта характеристик передается в 4 сети, то есть сеть сегментации на основе U-Net [6], нормальную сеть [7], граничную сеть [8] и сеть позиционирования [9]. Первые три сети выводят карту внимания, карту нормалей и карту краев, которые объединяются с изображением (без разреженной глубины и разреженной маски) для входа в «DepthNet» [9]. Результатом DepthNet является карта глубины и карта достоверности. Мы должны упомянуть, что сеть поз требует двух последовательных изображений и генерирует параметры движения эго камеры через регрессию, то есть матрицу вращения и вектор перемещения. Примечание: существует неизвестный скалярный коэффициент для вектора трансляции.

Карта характеристик изображения также искажается с использованием параметров движения эго перед входом в остаточный FlowNet [11], который оценивает остаточный оптический поток [10]. Последний оптический поток - это остаточный поток плюс движение эго.

Термины потерь в функции потерь для обучения сети включают член глубинной реконструкции [9], нормальный член [7], граничный член [8], термин внимания [17] и члены геометрической согласованности / согласованности движения [10]. Хотя для сетевого логического вывода нет входа стереоизображения, стереоизображение можно использовать для обучения сети с учетом условия несовпадения стереозвука. Термин согласованности движения происходит от ошибок PoseNet и Residual FlowNet, а термин на поверхности - от геометрического преобразования между картой глубины и картой нормалей.

Теперь, если доступно бинокулярное зрение (пока нет LiDAR), мы меняем только сеть оценки глубины. Обычно существует два способа оценки глубины: первый - это прямая конкатенация или корреляция функций, например FlowNet [11] и производная от нее DispNet [12]; другой - построение четырехмерного объема затрат на основе традиционного стереозрения, которое вводится в трехмерную CNN, такую ​​как PSM-Net [13] и GCNet [14]. Предлагается использовать второй метод, т. Е. Метод 3-D CNN на основе затрат.

Затем, когда будут доступны и LiDAR, и датчик монокамеры, разреженная карта глубины, разреженная маска (начальная карта достоверности), а также изображение RGB, карта сегментации, карта нормалей и карта границ будут загружены в «DepthNet». В этой сети есть два разных способа объединения информации от LiDAR и камеры: один - это раннее объединение, то есть вход сети кодер-декодер представляет собой объединение всех этих карт (также изображения), показанных на рисунке 3; другой - позднее слияние, когда входные данные от LiDAR кодируются кодировщиком, а входные данные с камеры - другим кодировщиком, а затем объединяются для передачи в один декодер для получения окончательного результата, плотной карты глубины и карты достоверности, показанных на рисунке 4. Мы предлагаем с использованием позднего слияния.

Наконец, если доступны и LiDAR, и стереокамеры, архитектура позднего слияния будет отличаться от конфигурации монокамеры LiDAR plus. На рисунке 5 предлагается избегать использования 3D CNN, потому что он не подходит для встраивания карт нормалей, краев и сегментации, вместо этого для измерения корреляции вызывается слой «корреляции» (Примечание: эта идея исходит от FlowNet [11]). между левой и правой картами функций, и результат объединяется с другими картами. Соответственно, функция потерь при обучении сети удалит термин из стерео, используемый при оценке глубины на основе моно-изображения.

3. Резюме

В этой статье рассказывается, как использовать преимущества и недостатки нескольких датчиков, дополняющих друг друга в углубленном слиянии. Ожидается, что он предоставит недорогое решение (чем меньше количество строк сканирования LiDAR, тем ниже стоимость всего LiDAR) в оценке плотной глубины с учетом качества данных. Он гибок в применении, автоматически выбирая наиболее надежные данные датчиков в качестве наивысшего приоритета. За исключением идеи, основанной на грубой силе данных в глубоком обучении, этот метод применяет больше предварительных знаний из самого изображения, таких как нормальный, сегментация, края, движение и поза и т. Д.

Ссылка

1. Йонас Уриг и др., «CNN, инвариантные к разреженности», , Международная конференция по 3D Vision (3DV), 8,2017

2. Элдесокей и др., «Распространение уверенности через CNN для регрессии разреженных данных» , BMCV, 5,2018

3. К. Парк, С. Ким, К. Сон , «Высокоточная оценка глубины с помощью 3D LiDAR и Stereo Fusion» , ICRA , 5,2018

4. К. Хе и др., «Глубокое остаточное обучение для распознавания изображений», CVPR, 2016 г.

5. Гуанг и др., «Плотно связанные сверточные сети», CVPR 2017

6. Олаф Роннебергер и др., «U-Net: сверточные сети для сегментации биомедицинских изображений», MICCAI, 2015

7. Y Zhang, T Funkhouser , «Глубокое завершение изображения RGB-D» , CVPR , 2018

8. З. Янг и др., «LEGO: обучение геометрии сразу, просматривая видео» , AAAI , 2019

9. И Чжан и др., «DFineNet: оценка эго-движения и уточнение глубины на основе разреженного, зашумленного ввода глубины с помощью RGB-навигации», arXiv 1903.06397, 2019

10. Лю и др., «PLIN: сеть для интерполяции псевдо-LiDAR облаков точек», arXiv 1909.07137, 2019

11. П. Фишер и др., «FlowNet: изучение оптического потока с помощью сверточных сетей», ICCV 2015

12. Н. Майер и др., «Большой набор данных для обучения сверточных сетей оценке диспаратности, оптического потока и потока сцены», CVPR 2016

13. Ж.-Р. Чанг, Ю.-С. Чен. «Пирамидная стерео согласованная сеть», IEEE CVPR 2018

14. X Guo et al., «Стереосеть групповой корреляции», IEEE CVPR 2019.

15. Y Zhang, T Funkhouser , «Глубокое завершение изображения RGB-D» , CVPR , 2018

16. Х. Лю и др. - «PLIN: сеть для интерполяции псевдо-LiDAR облаков точек», arXiv 1909.07137–2019.9

17. Дж. Цю и др., «DeepLiDAR: прогнозирование глубины с нормальным направлением на глубину поверхности для наружной сцены на основе разреженных данных LiDAR и одноцветного изображения», arXiv 1812.00488, апрель 2019 г.

Приложение: в статье упоминаются глубокие нейронные сети (рис. 6–14).