Обзор: SDN - стековая деконволюционная сеть с использованием DenseNet (семантическая сегментация)

Стекирование нескольких сетей кодировщика-декодера, превосходит FCN, DeepLabv1, DeepLabv2, DeepLabv3, DilatedNet, CRF-RNN, DeconvNet, PSPNet, FC-DenseNet, SegNet. », RefineNet .

В этой статье рассматривается SDN (Stacked Deconvolutional Network) Академии наук Китая и Университета Академии наук Китая. В этом документе:

Множественные неглубокие деконволюционные сети, называемые модулями SDN, сгруппированы для интеграции контекстной информации и обеспечения точного восстановления информации о локализации.
Пропускные соединения между блоками и внутри блоков используются для помощи в обучении сети и улучшения объединения функций.
Иерархический контроль применяется для оптимизации сети.

И это технический отчет arXiv за 2017 год, содержащий более 40 ссылок. (Сик-Хо Цанг @ средний)

Контур

Обзор сетевой архитектуры SDN
Блок SDN
Плотно связанные блоки SDN
Иерархический надзор
Исследование абляции
Сравнение с современными подходами

1. Обзор сетевой архитектуры SDN

Как показано на верхнем рисунке, используются три блока SDN (сеть кодировщика-декодера).
Для кодировщика на первом блоке SDN это предварительно обученный ImageNet DenseNet-161.

2. Блоки SDN

Блок SDN состоит из модуля кодера и модуля декодера, как показано выше в позиции (a).

2.1. Кодировщик

В кодере два блока понижающей дискретизации складываются так, что получается 1/16 пространственного разрешения входного изображения.
Один блок понижающей дискретизации состоит из максимального уровня объединения и 2 или более сверточных слоев и слоя сжатия, использующего свертку 3 × 3, как показано выше в (b).
Пропускные соединения внутри блока используются для объединения входных данных предыдущего сверточного слоя с выходными данными текущего слоя.
Слой сжатия предназначен для уменьшения количества каналов, чтобы не потреблять слишком много памяти графического процессора.

2.2. Декодер

В декодере два блока повышающей дискретизации складываются для увеличения разрешения обратно до 1/4 пространственного разрешения входного изображения.
Подобно кодеру, используются сверточные слои, уровень сжатия с внутриблочными пропускными соединениями, как показано выше в (c).

3. Плотно подключенные блоки SDN

В предлагаемой структуре есть два типа пропускных соединений между блоками. Один находится между любыми двумя соседними блоками SDN, а другой - своего рода пропуском подключений от первых блоков SDN к другим.
Первый тип - продвигать потоки семантической информации высокого уровня и улучшать оптимизацию модулей кодировщика.
Второй тип - объединение низкоуровневых представлений и семантических функций высокого уровня, что приводит к уточнению границ сегментации объекта.

4. Иерархический контроль

Как показано выше в (c), выходные данные определенного блока повышающей дискретизации передаются на слой классификации по пикселям для получения карты признаков E с каналом C, где C - количество возможных меток.
Уровень классификации - это операция свертки 3 × 3.
И E подвергается повышающей дискретизации, чтобы соответствовать размеру входного изображения с помощью билинейной интерполяции, и, наконец, контролируется с помощью попиксельной заземления.

Чтобы улучшить слияние карты оценок перед билинейной интерполяцией с тем же разрешением, вывод на более позднем слое объединяется с выводом на более раннем уровне поэлементной суммой.
На этапе тестирования мы используем в качестве окончательного прогноза только результат последнего блока с самым высоким разрешением.

5. Исследование абляции

Используется набор для валидации PASCAL VOC 2012.

5.1. Объединение нескольких модулей SDN в стек и проектирование сети в стеке

SDN_M1: один блок SDN, 78,2% mIoU.
SDN_M1 +: один блок SDN с наивным большим декодером, 78,6% mIoU.
SDN_M2: два блока SDN, 79,2% mIoU.
SDN_M3: три блока SDN, 79,9% mIoU.
Чем больше единиц SDN, тем выше mIoU.

5.2. Иерархический надзор

SDN_M1_1: добавлен только контроль с коэффициентом увеличения = {4}, 77,5% mIoU.
SDN_M1_2: добавлен контроль с коэффициентом увеличения = {8,4}, 78,0% mIoU.
SDN_M1: добавлен контроль с коэффициентом увеличения = {16,8,4}, 78,2% mIoU.

5.3. Подключения к карте очков

SDN_M2-: без подключения к карте оценок, 78,8% mIoU.
SDN_M2: при подключении к карте оценок, 79,2% mIoU.

5.4. Некоторые стратегии улучшения

Вверх: за счет каскадирования блока повышающей дискретизации для восстановления функций с высоким разрешением, 79,6% mIoU.
MS_Flip: усреднение карт вероятности сегментации из 5 масштабов изображения {0,5, 0,8, 1, 1,2, 1,4}, а также их зеркал для вывода, 80,7% mIoU.
COCO: предварительное обучение с использованием набора данных MS COCO, 84,8% mIoU.

6. Сравнение с современными подходами

6.1. Тестовый набор PASCAL VOC 2012

При использовании только летучих органических соединений SDN достигает 83,5% mIoU.
С COCO SDN + также получает 86,6% mIoU.
А SDN превосходит подходы SOTA, такие как FCN, DeepLabv2, CRF-RNN, DeconvNet, DilatedNet, RefineNet, PSPNet и DeepLabv3.

6.2. Набор для тестирования CamVid

SDN получает 69,6% mIoU.
С сетью, предварительно обученной с использованием VOC 2012, SDN + получает 71,8% mIoU.
А SDN превосходит подходы SOTA, такие как SegNet, DeconvNet, DeepLabv1, DilatedNet, FC-DenseNet.

6.3. Набор тестов GATECH

SDN получает 53,5% mIoU.
С сетью, предварительно обученной с помощью VOC 2012, SDN + получает 55,9% mIoU.
А SDN превосходит FC-DenseNet.

Ссылка

[2017 arXiv] [SDN]
Стековая деконволюционная сеть для семантической сегментации

Мои предыдущие обзоры

Классификация изображений [LeNet] [AlexNet] [Maxout] [NIN] [ZFNet] [VGGNet] [Highway] [SPPNet] [ PReLU-Net] [STN] [DeepImage] [SqueezeNet] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Inception-v3] [ Inception-v4 ] [ Xception ] [ MobileNetV1 ] [ ResNet ] [ Pre-Activation ResNet ] [ RiR ] [ RoR ] [ Stochastic Depth ] [ WRN ] [ Shake-Shake] [FractalNet] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet] [PyramidNet] [DRN] [DPN] [ Сеть остаточного внимания ] [ DMRNet / DFN-MR ] [ IGCNet / IGCV1 ] [ MSDNet ] [ ShuffleNet V1 ] [ SENet ] [ NASNet ] [ MobileNetV2 ]

Обнаружение объекта [OverFeat] [R-CNN] [Fast R-CNN] [Faster R-CNN] [MR-CNN & S-CNN] [ DeepID-Net ] [ КРАФТ ] [ R-FCN ] [ ION ] [ MultiPathNet ] [ NoC ] [ Hikvision ] [ GBD-Net / GBD-v1 и GBD-v2 ] [ G-RMI ] [ TDM ] [ SSD ] [ DSSD ] [ YOLOv1 ] [ YOLOv2 / YOLO9000 ] [ YOLOv3 ] [ FPN ] [ RetinaNet ] [DCN]

Семантическая сегментация [FCN] [DeconvNet] [DeepLabv1 & DeepLabv2] [CRF-RNN] [SegNet] [ParseNet] [DilatedNet] [ DRN ] [ RefineNet ] [ GCN ] [ PSPNet ] [ DeepLabv3 ] [ LC ] [ FC-DenseNet ] [ IDW-CNN ] [ SDN ]

Сегментация биомедицинских изображений [CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-FCN] [U-Net + ResNet] [MultiChannel] [V-Net] [3D U-Net] [M²FCN] [SA] [QSA + QNT] [3D U-Net + ResNet]

Сегментация экземпляра [SDS] [Hypercolumn] [DeepMask] [SharpMask] [MultiPathNet] [MNC] [InstanceFCN] [FCIS]

Суперразрешение [SRCNN] [FSRCNN] [VDSR] [ESPCN] [RED-Net] [DRCN] [DRRN] [LapSRN & MS-LapSRN ] [ SRDenseNet ]

Оценка позы человека [DeepPose] [Tompson NIPS’14] [Tompson CVPR’15] [CPM]