Масштабируемые и эквивариантные сферические CNN с помощью сверток DISCO

Ни одна из существующих структур сферической сверточной нейронной сети (CNN) не является масштабируемой с точки зрения вычислений и эквивалентной по вращению. Непрерывные подходы отражают эквивариантность вращения, но часто требуют слишком больших вычислительных ресурсов. Дискретные подходы предлагают более благоприятную вычислительную производительность, но за счет эквивариантности. Мы разрабатываем гибридную дискретно-непрерывную (DISCO) групповую свертку, которая одновременно является эквивариантной и вычислительно масштабируемой до высокого разрешения. Этот подход обеспечивает производительность на уровне самых современных (SOTA) во многих эталонных задачах плотного прогнозирования. (Дополнительную информацию можно найти в нашей статье ICLR Масштабируемые и эквивариантные сферические CNN с помощью сверток DISCO.)

Геометрическое глубокое обучение в группах имеет множество применений, таких как анализ наблюдений над Землей, панорамные фотографии и видео с углом обзора 360°, и это лишь некоторые из них. Однако современные подходы страдают дихотомией: они либо демонстрируют хорошие свойства эквивариантности, либо хорошую вычислительную масштабируемость; но не то и другое одновременно.

Дихотомия: дискретный и непрерывный подходы

Ключевыми целями методов геометрического глубокого обучения в группах является кодирование эквивалентности для различных групповых преобразований (что обычно приводит к очень хорошей производительности), а также высокая вычислительная масштабируемость.

Как обсуждалось в нашей предыдущей статье TDS, посвященной групповой настройке однородных пространств с глобальной симметрией, геометрическое глубокое обучение на группах можно в целом разделить на дискретные и непрерывные подходы. Непрерывные подходы предлагают эквивариантность, но требуют больших вычислительных затрат. С другой стороны, дискретные подходы обычно относительно эффективны в вычислительном отношении, но приносят в жертву эквивариантность.

Преодоление дихотомии: дискретно-непрерывный подход (DISCO)

В Copernic AI мы недавно разработали методы, разрушающие эту дихотомию (недавно опубликованные в ICLR [1]). То есть мы разработали методы геометрического глубокого обучения для групп, которые обеспечивают превосходные свойства эквивариантности, а также обладают высокой вычислительной эффективностью, поэтому их можно эффективно масштабировать до огромных наборов данных с высоким разрешением.

Ключом к преодолению дихотомии между дискретным и непрерывным является использование гибридного подхода, при котором некоторые части представления дискретизируются для облегчения эффективных вычислений, а другие части остаются непрерывными для обеспечения эквивариантности. Из-за его гибридной природы (как показано на диаграмме ниже) мы называем этот подход DISCO, от DIScrete-CONtinous.

Хотя подход DISCO является общим, мы сосредоточимся на сфере как на архетипическом примере групповой настройки однородных пространств с глобальной симметрией.

Дискретно-непрерывные (DISCO) групповые свертки

Подход DISCO основан на сверточных слоях, где групповая свертка DISCO следует за тщательным гибридным представлением стандартной групповой свертки. Некоторые компоненты представления оставлены непрерывными, чтобы обеспечить точную вращательную эквивалентность, в то время как другие компоненты дискретизированы, чтобы обеспечить масштабируемость вычислений.

Групповая свертка DISCO сигнала (т. е. данных, карты объектов) f, определенная по группе, с фильтром 𝝭, задается выражением

где g — элемент группы G,dµ(u) — мера интегрирования (Хаара), а q (uᵢ) — квадратурные веса. Квадратные скобки и нижние индексы обозначают дискретные количества, где i обозначает индекс выборки, а круглые скобки обозначают непрерывные количества.

На сфере мы рассматриваем преобразования, заданные трехмерными вращениями, поэтому свертка DISCO сигнала на сфере читается

где R обозначает вращение и ω сферические координаты.

Сосредоточившись на сферическом случае, очевидно, что интересующий сигнал должен быть дискретизирован в позициях выборки ωᵢ. Однако критически важно, что в подходе DISCO фильтр 𝝭 и групповое действие R остаются непрерывными. Это позволяет непрерывно преобразовывать фильтр с помощью любого R, сохраняя согласованное представление, которое позволяет избежать ошибок дискретизации и, следовательно, обеспечивает вращательную эквивариантность, в отличие от полностью дискретного метода.

Интеграл по ωдолжентакже быть дискретизирован. Для сигналов с ограниченной полосой пропускания на компактных однородных многообразиях, таких как сфера, существование теоремы выборки гарантирует, что интеграл может быть очень точно аппроксимирован с использованием квадратурных весов q(ωᵢ).

Аппроксимация DISCO групповой свертки очень точна для сигналов с ограниченной полосой пропускания, которые могут быть хорошо приближены к реальным сигналам при достаточном ограничении полосы пропускания. Применяя теорему выборки, все информационное содержание сигнала можно зафиксировать в конечном наборе выборок {f[ωᵢ]}. Фильтр представлен постоянно и поэтому не вносит никаких ошибок. Таким образом, единственным источником ошибки аппроксимации является квадратура, используемая для вычисления интеграла. Для достаточно плотной выборки можно обратиться к теореме выборки и соответствующей квадратуре, чтобы точно оценить это. Следовательно, в принципе можно точно вычислить групповую свертка DISCO без какой-либо ошибки аппроксимации. Поскольку аппроксимация очень точна, что может быть сделано точным для достаточно плотной выборки, а групповые действия обрабатываются непрерывно, групповая свертка DISCO демонстрирует превосходные свойства эквивариантности, что подтверждено численно [1].

Масштабируемые вычисления

Свертка DISCO обеспечивает вычислительно масштабируемую реализацию посредством разреженных тензорных представлений [1]. В частности, мы используем операторы разреженно-плотного тензорного умножения для эффективного вычисления сферической свертки DISCO на аппаратных ускорителях (например, GPU, TPU).

Путем дальнейшего ограничения пространства поворотов (частным пространством SO(3)/SO(2)) и использования симметрии схемы выборки мы достигаем линейного масштабирования как по вычислительным затратам, так и по требованиям к памяти.

На приведенных ниже графиках показано количество операций с плавающей запятой (FLOP) и требования к памяти для сферической свертки DISCO в зависимости от разрешения/ограничения полосы пропускания по сравнению с наиболее эффективной альтернативной сферической сверткой, демонстрирующей вращательную эквивариантность.

Для сферических изображений 4k мы достигаем экономии 10⁹ вычислительных затрат и 10⁴ использования памяти.

DISCO сферические архитектуры CNN

Транспонированная свертка DISCO также может быть построена аналогично прямой свертке, рассмотренной выше, которую затем можно использовать для увеличения разрешения представлений внутренних признаков для задач плотного прогнозирования.

Затем можно построить эффективные сферические реализации распространенных архитектур CNN путем объединения прямых и транспонированных сферических сверток DISCO с точечными нелинейными активациями и другими общими архитектурными функциями, такими как пропуск соединений, пакетная нормализация, несколько каналов и т. д.

Ниже мы рассмотрим ряд задач плотного прогнозирования, таких как семантическая сегментация и оценка глубины, для которых мы используем общую основу остаточной архитектуры UNet с свертками DISCO. Полученные в результате модели DISCO достигают самых современных (SOTA) характеристик по всем задачам эталонного тестирования, рассмотренным на сегодняшний день.

Семантическая сегментация

Мы рассматриваем задачу плотного предсказания семантической сегментации фотографий 360°.

Для набора данных 2D3DS, состоящего из фотографий с углом обзора 360° в помещении, мы приводим ниже примеры сферических изображений RGB, наземных сегментаций и сегментаций, предсказанных моделью DISCO просто из изображения RGB.

Хотя прогнозируемые сегментации не идеальны, они, как правило, очень точны. Фактически, наш подход DISCO обеспечивает производительность SOTA по сравнению со всеми другими альтернативами (дополнительную информацию см. в [1]).

Для набора данных Omni-SYNTHIA фотографий наших дверей с обзором 360° мы также приводим ниже примеры сферических изображений RGB, сегментации наземной истины и прогнозируемой сегментации.

Опять же, прогнозируемые сегментации, как правило, очень точны, и мы достигаем производительности SOTA по сравнению со всеми другими альтернативами (см. [1] для получения дополнительной информации).

Оценка глубины

Другой распространенной задачей плотного прогнозирования является оценка глубины. Мы рассматриваем задачу монокулярной оценки глубины по 360-градусным фотографиям, занимаясь бенчмарком Pano3D для набора данных Matterport3D.

Ниже мы приводим примеры сферических изображений RGB, наземной истинной глубины и глубин, предсказанных моделью DISCO просто из изображения RGB.

Прогнозируемые глубины, как правило, очень точны. Действительно, мы снова достигаем производительности SOTA по сравнению со всеми другими альтернативами (подробности см. в [1]).

Будущие перспективы

Проблема как эквивариантного, так и вычислительно масштабируемого геометрического глубокого обучения на группах теперь решена с помощью гибридного дискретно-непрерывного (DISCO) представления. Как мы видели в рассмотренных выше задачах эталонного тестирования, где мы достигли производительности SOTA, отличные свойства эквивалентности приводят к отличной производительности.

Теперь у нас есть базовые строительные блоки, необходимые для расширения современных архитектур глубокого обучения на групповые настройки однородных пространств с глобальной симметрией, таких как сфера. Существует огромное количество таких приложений, в которых мы теперь можем раскрыть потенциал современного глубокого обучения.

Рекомендации

[1] Ocampo, Price, McEwen, Масштабируемые и эквивариантные сферические CNN с помощью дискретно-непрерывных (DISCO) сверток, ICLR (2023), arXiv:2209.13603