Ориентированное на зрение семантическое прогнозирование занятости для автономного вождения

Обзор академических «Сетей занятости» по состоянию на 2023H1

Одна из критических проблем существующих методов обнаружения 3D-объектов в автономном вождении заключается в том, что они обычно выводят краткие 3D-ограничивающие рамки, пренебрегая более мелкими геометрическими деталями и изо всех сил пытаясь справиться с общими, выпадающими из словаря объектами. Эта болевая точка существует как для монокулярного 3D обнаружения объектов, так и для многокамерного обнаружения объектов BEV. Чтобы решить эту проблему, сеть занятости, ориентированное на зрение решение для общего обнаружения препятствий, было впервые представлено в программной речи Tesla на CVPR 2022, а затем популяризировано на AI Day 2022. Для получения более подробной информации, пожалуйста, обратитесь к предыдущей серии сообщений в блоге о управляемом пространстве.

Управляемое пространство в автономном вождении — отрасль
Последние тенденции в отраслевых приложениях по состоянию на 2023 годmedium.com

В академических кругах аналогичный трек восприятия сети занятости известен как Семантическое прогнозирование занятости (SOP), а иногда также упоминается как Семантическое завершение сцены (SSC), с некоторыми тонкими нюансами. различия между двумя поясняются ниже. Семантическое прогнозирование занятости назначает состояние занятости и семантическую метку каждому вокселу в сцене. Это представление является общим и достаточно выразительным для описания объектов известных классов, но неправильной формы или объектов из известного белого списка. В этом сообщении в блоге будут рассмотрены современные методы семантического прогнозирования занятости по состоянию на начало 2023 года. Эта область привлекла пристальное внимание в академических кругах, о чем свидетельствует взрыв статей, представленных на ведущих конференциях, а также существует занятость. прогнозирование вызовов на CVPR этого года».

Завершение семантической сцены и прогнозирование семантической занятости

Концепция завершения семантической сцены (SSC) была впервые предложена в документе SSCNet (CVPR 2017), а затем популяризирована SemanticKITTI (ICCV 2019), которая предоставила официальный набор данных и трек соревнований. Совсем недавно появилась несколько иная задача семантического прогнозирования занятости (SOP). И SSC, и SOP предназначены для прогнозирования статуса занятости и семантического класса вокселя в заданном пространственном местоположении, но есть несколько тонких отличий. Во-первых, модальность ввода для SSC — это частичные 3D-данные, собранные LiDAR или другими активными датчиками глубины, отсюда и название «завершение» семантической 3D-сцены. SOP использует в качестве входных данных 2D-изображения, возможно, многокамерные и многокадровые. Кроме того, SSC обычно фокусируется на статических сценах, в то время как SOP также может обрабатывать динамические объекты. Таким образом, SOP кажется более общей и предпочтительной терминологией, и в этой статье мы будем использовать семантическое прогнозирование занятости, семантическое завершение сцены и сеть занятости взаимозаменяемо.

Новаторская работа monoScene впервые использует монокулярные изображения для выполнения задачи прогнозирования семантической занятости на SemanticKITTI. Он по-прежнему называет задачу SSC, возможно, из-за того, что SemanticKITTI содержит в основном статические сцены. Более поздние исследования предпочитают термин SOP, который расширяет задачу до другого набора данных, такого как NuScenes и Waymo, а также обрабатывает динамические объекты.

Краткое изложение новаторских работ

Здесь я сначала подытожу бурный рост научных исследований за последний год на высоком уровне, а затем перейду к краткому изложению различных технических деталей. Ниже приведена диаграмма, обобщающая общую цепочку развития рассматриваемой работы. Стоит отметить, что эта область все еще быстро развивается, и ей еще предстоит прийти к общепринятому набору данных и метрике оценки.

MonoScene (CVPR 2022), первая попытка визуального ввода

MonoScene — первая работа по реконструкции уличных сцен с использованием только изображений RGB в качестве входных данных, в отличие от лидарных облаков точек, которые использовались в предыдущих исследованиях. Это решение для одной камеры, ориентированное на набор данных SemanticKITTI только для фронтальной камеры.

В документе предлагается много идей, но только один вариант дизайна кажется критическим — FLoSP (Feature Line of Sight Projection). Эта идея аналогична идее распространения признаков по линии прямой видимости, также принятой в OFT (BMVC 2019) или Поднимите-Splat-Shoot (ECCV 2020). Согласно исследованию абляции, другие новшества, такие как априорное отношение к контексту и уникальные потери, вызванные прямой оптимизацией показателей, кажутся не такими уж полезными.

VoxFormer (CVPR 2023), значительно улучшенная моносцена

Основная идея VoxFormer заключается в том, что SOP/SSC должны одновременно решать две задачи: реконструкция сцены для видимых областей и галлюцинация сцены для закрытых областей. VoxFormer предлагает подход реконструкции и уплотнения. На первом этапе реконструкции бумага поднимает пиксели RGB в облако точек псевдо-LiDAR с помощью методов моноглубины, а затем вокселизирует их в исходные предложения запросов. На втором этапе уплотнения эти разреженные запросы дополняются функциями изображения и используют самостоятельный поиск для распространения меток для создания плотного прогноза. VoxFormer значительно превзошел MonoScene на SemanticKITTI и по-прежнему является решением с одной камерой. Архитектура улучшения характеристик изображения в значительной степени заимствует идею деформируемого внимания из BEVFormer.

TPVFormer (CVPR 2023), первая попытка мультикамеры

TPVFormer — это первая работа, в которой 3D-семантическое прогнозирование занятости обобщается для многокамерной установки и расширяется идея SOP/SSC от semanticKITTI до NuScenes.

TPVFormer расширяет идею BEV до трех ортогональных осей. Это позволяет моделировать 3D без подавления каких-либо осей и избегать кубической сложности. Конкретно TPVFormer предлагает два этапа создания функций TPV. Во-первых, он использует перекрестное внимание изображения (ICA) для получения функций TPV. По сути, это заимствует идею BEVFormer и распространяется на два других ортогональных направления, чтобы сформировать функцию TriPlane View. Затем он использует перекрестное гибридное внимание (CVHA) для улучшения каждой функции TPV, уделяя внимание двум другим.

TPVFormer использует наблюдения из разреженных лидарных точек из ванильного набора данных NuScenes без какого-либо уплотнения или реконструкции мультикадра. В нем утверждалось, что модель может предсказать более плотное и более последовательное заполнение объема для всех вокселей во время вывода, несмотря на редкое наблюдение во время обучения. Однако более плотный прогноз по-прежнему не такой плотный по сравнению с более поздними исследованиями, такими как SurroundOcc, в котором используется уплотненный набор данных NuScenes.

SurroundOcc (Arxiv 2023/03) и OpenOccupancy (Arxiv 2023/03), первые попытки плотного контроля меток

SurroundOcc утверждает, что плотное предсказание требует плотных меток. В документе успешно продемонстрировано, что более плотные метки могут значительно повысить производительность предыдущих методов, таких как TPVFormer, почти в 3 раза. Его наиболее значительным вкладом является конвейер для создания достоверной информации о плотном заполнении без необходимости дорогостоящего человеческого комментирования.

Генерация меток плотной занятости включает в себя два этапа: агрегацию мультикадровых данных и уплотнение. Во-первых, многокадровые лидарные точки динамических объектов и статических сцен сшиваются отдельно. Накопленные данные более плотные, чем измерение одного кадра, но в них все еще много дыр и требуется дальнейшее уплотнение. Уплотнение выполняется с помощью реконструкции поверхности Пуассона треугольной сетки и метода ближайшего соседа (NN) для распространения меток на вновь заполненные воксели.

OpenOccupancy современен и похож по духу на SurroundOcc. Как и SurroundOcc, OpenOccupancy также использует конвейер, который сначала объединяет мультикадровые лидарные измерения отдельно для динамических объектов и статических сцен. Для дальнейшего уплотнения вместо реконструкции Пуассона, принятой SurroundOcc, OpenOccupancy использует подход Augment-and-Purify (AAP). Конкретно, базовая модель обучается с помощью агрегированной необработанной метки, а результат ее прогнозирования используется для слияния с исходной меткой для создания более плотной метки (также известной как дополнение). Более плотная этикетка примерно в 2 раза плотнее и очищается вручную людьми (также известными как очищение). Всего на уточнение метки для nuScenes было потрачено 4000 человеко-часов, примерно 4 человеко-часа на 20-секундный клип.

По сравнению с вкладом в создание конвейера создания плотных меток сетевая архитектура SurroundOcc и OpenOccupancy не столь инновационна. SurroundOcc в значительной степени основан на BEVFormer с пошаговым переходом от грубого к точному для улучшения 3D-функций. OpenOccupancy предлагает CONet (каскадную сеть занятости), в которой используется подход, аналогичный подходу Lift-Splat-Shoot, для переноса 2D-функций в 3D, а затем улучшения 3D-функций с помощью каскадной схемы.

Occ3D (Arxiv 2023/04), первая попытка рассуждения о окклюзии

Occ3D также предложила конвейер для создания плотных меток занятости, который включает в себя агрегацию облака точек, маркировку точек и обработку окклюзии. Это первая статья, в которой явно рассматриваются причины видимости и перекрытия плотной метки. Обоснование видимости и окклюзии критически важны для встроенного развертывания моделей SOP. Во время обучения необходимо особое внимание к окклюзии и видимости, чтобы избежать ложных срабатываний из-за чрезмерной галлюцинации о ненаблюдаемой сцене.

Примечательно, что видимость лидара отличается от видимости камеры. Лидарная видимость описывает полноту плотной метки, так как некоторые воксели не видны даже после агрегирования многокадровых данных. Он непротиворечив во всей последовательности. Между тем, видимость камеры фокусируется на возможности обнаружения бортовых датчиков без галлюцинаций и различается для каждой временной метки. Оценка выполняется только для «видимых» вокселей как в представлении LiDAR, так и с камеры.

При подготовке плотных меток Occ3D полагается только на агрегацию мультикадровых данных и не имеет второго этапа уплотнения, как в SurroundOcc и OpenOccupancy. Авторы утверждали, что для набора данных Waymo метка уже достаточно плотная без уплотнения. Для nuScenes, несмотря на то, что аннотация все еще имеет пробелы после агрегирования облака точек, реконструкция Пуассона приводит к неточным результатам, поэтому шаг уплотнения не выполняется. Возможно, подход OpenOccupancy, основанный на расширении и очистке, более практичен в этих условиях.

Occ3D также предложила архитектуру нейронной сети Coarse-to-Fine Occupancy (CTF-Occ). Идея перехода от грубого к точному во многом такая же, как и в OpenOccupancy и SurroundOcc. CTF-Occ предложил инкрементальный выбор токенов, чтобы уменьшить вычислительную нагрузку. Он также предложил неявный декодер для вывода семантической метки любой заданной точки, аналогично идее сетей занятости.

Сравнение технических деталей

Рассмотренные выше исследования семантического прогнозирования занятости сведены в следующую таблицу с точки зрения сетевой архитектуры, потерь при обучении, показателей оценки, а также дальности обнаружения и разрешения.

Архитектура сети

Большинство исследований основано на проверенных современных методах восприятия BEV, таких как BEVFormer и Lift, Splat, Shoot. Архитектуру можно в основном разделить на два этапа: преобразование 2D-функций в 3D и улучшение 3D-функций. См. приведенную выше таблицу для более подробного обзора. Архитектура, кажется, в значительной степени конвергентна. Самое главное — это конвейер создания аннотаций с высокой плотностью занятости и тщательный контроль во время обучения.

Ниже приведен краткий обзор конвейера автоматической маркировки для создания плотных меток занятости в SurroundOcc, OpenOccupancy и Occ3D.

Потеря обучения

Задача прогнозирования семантической занятости очень похожа на семантическую сегментацию, поскольку SOP должна предсказывать одну семантическую метку для каждого вокселя в трехмерном пространстве, в то время как семантическая сегментация должна предсказывать одну семантическую метку для каждой точки измерения, будь то пиксель на изображение или 3D-точка на лидарное сканирование. Основными потерями для семантической сегментации были кросс-энтропийные потери и потери Ловаша. Расширение Lovasz позволяет напрямую оптимизировать показатель среднего пересечения по объединению (IoU) в нейронных сетях.

Возможно, вдохновленный Ловасом, monoScene предложил несколько других потерь, которые могут напрямую оптимизировать показатели оценки. Однако они кажутся эзотерическими и не полностью подтверждены исследованиями абляции.

Метрики оценки

Основной метрикой является IoU для предсказания занятости геометрии (занят ли воксел) и mIoU (среднее значение IoU) для семантической классификации (к какому классу принадлежит занятый воксель). Эти показатели, возможно, были бы неадекватными для промышленных приложений.

Задача SOP на основе машинного зрения должна быть доработана для промышленного использования и замены лидара. Хотя в метрике IoU важны как точность, так и отзыв, точность всегда важнее для приложений ADAS (расширенных систем помощи водителю), чтобы избежать фантомного торможения, пока у нас все еще есть водитель за рулем.

Диапазон обнаружения и разрешение

Все текущие треки предсказывают 50 метров вокруг автомобиля с эго. Разрешение вокселя варьируется от 0,2 м для SemanticKITTI до 0,4 м или 0,5 м для наборов данных NuScenes и Waymo. Это хорошая отправная точка, но, возможно, она все еще неадекватна для промышленных приложений.

Более приемлемым разрешением и диапазоном может быть 0,2 м для диапазона в пределах 50 м и 0,4 м для диапазона от 50 до 100 м.

Связанные задачи

Есть две задачи, связанные с SOP: карты окружающего пространства и лидарная семантическая сегментация, которые мы кратко рассмотрим ниже.

Задача прогнозирования карты глубины объемного звучания (например, FSM и SurroundDepth) расширяет монокулярное прогнозирование глубины и использует согласованность в перекрывающемся поле зрения камеры для дальнейшего повышения производительности. Он больше фокусируется на источнике измерения, присваивая каждому пикселю изображения значение глубины (снизу вверх), в то время как SOP больше фокусируется на цели приложения в пространстве BEV (сверху вниз). Та же аналогия существует между Lift-Splat-Shoot и BEVFormer для восприятия BEV, где первый — восходящий подход, а второй — нисходящий.

Лидарная семантическая сегментация фокусируется на присвоении каждому лидарному облаку точек в лидарном сканировании метки семантического класса. Восприятие реального мира в 3D по своей природе является разреженным и неполным. Для целостного семантического понимания недостаточно анализировать только разрозненные измерения, игнорируя при этом ненаблюдаемые структуры сцены.

Выводы

Архитектура нейронной сети в семантическом прогнозировании занятости, по-видимому, в значительной степени сошлась. Что важнее всего, так это конвейер автоматической маркировки для создания плотных меток занятости и плотного контроля во время обучения.
Текущая дальность обнаружения и разрешение вокселей, принятые в обычных наборах данных, были бы недостаточными для промышленных приложений. Нам нужна большая дальность обнаружения (например, 100 м) при более высоком разрешении (например, 0,2 м).
Текущие метрики оценки также не подходят для промышленных приложений. Точность важнее отзыва для приложений ADAS, чтобы избежать частого фантомного торможения.
Будущие направления семантического прогнозирования занятости могут включать в себя оценку потока сцены. Это поможет прогнозировать будущие траектории неизвестных препятствий и избегать столкновений при планировании траектории для автомобиля с датчиком.

Примечание. Все изображения в этом сообщении блога созданы либо автором, либо взяты из общедоступных академических статей. Подробности смотрите в подписях.