Обзор: IDW-CNN - изучение описаний изображений в наборе данных Wild повышает точность…

Обгоняет FCN, CRF-RNN и DeepLabv2

В этой статье дается краткий обзор IDW-CNN Университета Сунь-Ят-сена, Китайского университета Гонконга и SenseTime Group (Limited).

Точность сегментации повышается за счет изучения набора данных Image Descriptions in the Wild (IDW).
В отличие от предыдущих наборов данных для подписей к изображениям, где подписи были вручную и плотно аннотированы, изображения и их описания в IDW автоматически загружаются из Интернета без какой-либо ручной очистки и уточнения.

Это статья CVPR за 2017 год, содержащая десятки цитирований. (Сик-Хо Цанг @ средний)

Контур

Создание описания изображения в наборе данных Wild (IDW)
Архитектура IDW-CNN
Подходы к обучению
Экспериментальные результаты

1. Создание описания изображения в наборе данных Wild (IDW)

IDW построен в 2 этапа.

1.1. Первая ступень

21 часто употребляемый предлог и глагол, например «держать», «играть с», «обнимать», «ездить» и «стоять рядом», и 20 категорий объектов из VOC12, например « "человек", "корова", "велосипед", "овца" и "стол", готовы.
Их комбинации в терминах «подлежащее + глагол / преп. + объект »приводит к 20 × 21 × 20 = 8400 различных фраз, например« человек едет на велосипеде »,« человек сидит рядом с велосипедом »и« человек стоит рядом с велосипедом ».
Некоторые из них редко встречаются на практике, например «овца, обнимающая корову».
Сотни значимых фраз собираются после удаления бессмысленных фраз.

1.2. Вторая стадия

Эти фразы используются в качестве ключевых слов для поиска изображений и окружающих их текстов в Интернете.
Недействительные фразы, такие как «человек верхом на корове», отбрасываются, если количество полученных ими изображений меньше 150, чтобы предотвратить редкие случаи или выбросы, которые могут привести к переобучению при обучении.
В результате получается 59 актуальных фраз. Наконец, IDW имеет 41 421 изображение и описание.

Приведенная выше гистограмма показывает распределение изображений этих объектов в реальном мире без какой-либо ручной очистки и уточнения.

1.3. Изображение Описание Представление

Описание каждого изображения автоматически превращается в дерево синтаксического анализа, где мы выбираем полезные объекты (например, существительные) и действия (например, глаголы) в качестве наблюдений во время обучения.
Каждую конфигурацию двух объектов и действия между ними можно рассматривать как взаимодействие объектов, что является ценной информацией для сегментации изображения, но не представлено в картах меток VOC12.

Во-первых, Стэнфордский синтаксический анализатор используется для анализа описаний изображений и создания деревьев избирательных округов, как указано выше. Но он по-прежнему содержит нерелевантные слова, которые не описывают ни категории объектов, ни взаимодействия.
Затем необходимо преобразовать деревья избирательных округов в семантические деревья, которые содержат только объекты и их взаимодействия. 1) фильтровать листовые узлы по их частям речи, сохраняя только существительные в качестве кандидатов объекта, а глаголы и предлоги в качестве кандидатов действий. 2) существительные преобразуются в предметы. Данные лексического отношения в WordNet для унификации синонимов. Существительные, не принадлежащие к 20 категориям объектов, будут удалены из дерева. 3) сопоставьте глаголы с определенным 21 действием, используя word2vec. 4) извлекать взаимодействия объектов из семантического дерева через узлы.
например «Девушка играет с ягненком, держит ягненка» сначала исключается из описания, а затем переводится в «человек, играющий с овцой, держащий овец».
После анализа всех описаний изображений в IDW всего получается 62 100 взаимодействий с объектами.

Создание IDW не требует ручного вмешательства и требует чрезвычайно низких затрат по сравнению с предыдущими наборами данных.

1.4. Три набора тестов

int-IDW: случайным образом выберите 1440 изображений из IDW в качестве тестового набора для прогнозирования взаимодействия с объектами.
seg-IDW: аннотируйте попиксельную карту меток для каждого изображения в int-IDW, в результате чего создается набор тестов сегментации. seg-IDW сложнее, чем VOC12, с точки зрения разнообразия объектов на каждом изображении.
zero-IDW: набор тестов без выстрела включает 1000 изображений взаимодействия невидимых объектов. Например, образ «человек верхом на корове» - редкий случай (например, в корриде) и не используется при обучении.

2. Архитектура IDW-CNN

Сеть можно разделить на три основные части.

2.1. Извлечение функций

IDW-CNN использует DeepLabv2 в качестве строительного блока для извлечения признаков.
IDW-CNN только наследует ResNet-101 от DeepLabv2, но удаляет другие компоненты, такие как многомасштабное слияние и CRF.
Судя по изображению I, ResNet-101 выдает характеристики 2048 каналов. Размер каждого канала - 45 × 45.

2.2. Сег-поток

Вышеупомянутые функции используются сверточным слоем для прогнозирования карты меток сегментации (обозначенной как Is), размер которой составляет 21 × 45 × 45.

2.3. Инт-поток

Этот поток состоит из трех этапов.
На первом этапе мы уменьшаем количество каналов функций с 2048 до 512 с помощью сверточного слоя, обозначенного как h , чтобы сократить объем вычислений на последующих этапах.
Каждая карта характеристик в hm, hm_i получается путем предварительного преобразования поэлементного произведения («⊗») между h и каждым каналом , который представляет маску. Следовательно, каждый hm_i ∈ R размером 512 × 45 × 45 представляет маскированные характеристики i -го класса объектов.
На втором этапе каждый hm_i используется в качестве входных данных для обучения соответствующей подсети объекта, которая выводит вероятность, характеризующую, представлен ли объект i в изображение I.
Обучена 21 объектная подсеть, которые имеют одинаковую сетевую структуру, но их параметры не используются совместно, за исключением полностью связанных слоев. Он имеет оранжевый цвет справа от рисунка выше.
В целом, второй этап определяет, какие объекты отображаются в I.
На третьем этапе обучаются 22 подсети действий, каждая из которых предсказывает действие между двумя появившимися объектами. Он выделен синим цветом справа от рисунка выше.
Например, если и "человек", и "велосипед" представлены в I, сочетание их характеристик, hm_person ⊕ hm_bike ∈ R 512 × 45 × 45, распространяется на все подсети действий.
Наибольший отклик, скорее всего, будет вызван одной из следующих подсетей действий: «ездить», «сидеть рядом» и «стоять рядом».

2.4. Выбор пары объектов (OPS)

OPS объединяет особенности представленных объектов. Он имеет фиолетовый цвет слева от рисунка выше.
Например, если объектные подсети "человек", "велосипед" и "автомобиль" имеют высокие отклики, каждая пара функций среди hm_person, hm_bike и hm_car суммируются поэлементно, в результате получается три объединенных объекта, обозначенных как hm_person + bike, hm_person + car и hm_bike + car .
Затем каждая объединенная функция направляется во все 22 подсети действий.

2.5. Уточнение

i -я объектная подсеть дает оценку (вероятность), и все 21 оценка объединяются в вектор.
Он рассматривается как фильтр для уточнения карты сегментации Is с использованием свертки.

3. Подходы к обучению

Каждое изображение в IDW содержит взаимодействия объектов, но без карты меток.
Каждое изображение в VOC12 имеет карту меток, но не взаимодействует.
IDW-CNN оценивает псевдо-метку для каждого образца и рассматривает это как основную истину в BP.
Для Seg-stream скрытый Is_idw оценивается как «псевдопредставитель путем объединения прогнозируемой карты сегментации, Is_idw и метки прогнозируемых объектов lo_idw.
Для Int-stream получается предварительное распределение по действиям между каждой парой объектов. Для «велосипед» и «человек» это априорное значение дает высокие вероятности по сравнению с четырьмя указанными выше действиями и низкую вероятность по другим. На этапе обучения функция потерь предлагает низкий штраф, если предсказанное действие входит в одно из вышеперечисленных, в противном случае - высокий штраф.

4. Экспериментальные результаты.

ResNet-101: 74,2% mIoU.
IDW-CNN (10k): 10k изображений IDW для обучения, 81,8% mIoU.
IDW-CNN (20k): 20k изображений IDW для обучения, 85,2% mIoU.
IDW-CNN (40k): 40k изображений IDW для обучения, 86,3% mIoU. И он превосходит подходы SOTA, такие как FCN, CRF-RNN и DeepLabv2.

Подобно набору данных seg-IDW, IDW-CNN (40k) имеет лучшую производительность.

Вспомните - n (n = 5, 10), измеряя вероятность того, что истинное взаимодействие будет среди 5 или 10 наиболее предсказанных взаимодействий.
IDW-CNN превосходит остальных на 3% на Recall-5.

Полная модель IDW-CNN по-прежнему пользуется наибольшим спросом.

Ссылка

[2017 CVPR] [IDW-CNN]
Взаимодействие с обучающими объектами и описания для семантической сегментации изображений

Мои предыдущие обзоры

Классификация изображений [LeNet] [AlexNet] [Maxout] [NIN] [ZFNet] [VGGNet] [Highway] [SPPNet] [ PReLU-Net] [STN] [DeepImage] [SqueezeNet] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Inception-v3] [ Inception-v4 ] [ Xception ] [ MobileNetV1 ] [ ResNet ] [ Pre-Activation ResNet ] [ RiR ] [ RoR ] [ Stochastic Depth ] [ WRN ] [ Shake-Shake] [FractalNet] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet] [PyramidNet] [DRN] [DPN] [ Сеть остаточного внимания ] [ DMRNet / DFN-MR ] [ IGCNet / IGCV1 ] [ MSDNet ] [ ShuffleNet V1 ] [ SENet ] [ NASNet ] [ MobileNetV2 ]

Обнаружение объекта [OverFeat] [R-CNN] [Fast R-CNN] [Faster R-CNN] [MR-CNN & S-CNN] [ DeepID-Net ] [ КРАФТ ] [ R-FCN ] [ ION ] [ MultiPathNet ] [ NoC ] [ Hikvision ] [ GBD-Net / GBD-v1 и GBD-v2 ] [ G-RMI ] [ TDM ] [ SSD ] [ DSSD ] [ YOLOv1 ] [ YOLOv2 / YOLO9000 ] [ YOLOv3 ] [ FPN ] [ RetinaNet ] [DCN]

Семантическая сегментация [FCN] [DeconvNet] [DeepLabv1 & DeepLabv2] [CRF-RNN] [SegNet] [ParseNet] [DilatedNet] [ DRN ] [ RefineNet ] [ GCN ] [ PSPNet ] [ DeepLabv3 ] [ LC ] [ FC-DenseNet ] [ IDW-CNN ]

Сегментация биомедицинских изображений [CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-FCN] [U-Net + ResNet] [MultiChannel] [V-Net] [3D U-Net] [M²FCN] [SA] [QSA + QNT] [3D U-Net + ResNet]

Сегментация экземпляра [SDS] [Hypercolumn] [DeepMask] [SharpMask] [MultiPathNet] [MNC] [InstanceFCN] [FCIS]

Суперразрешение [SRCNN] [FSRCNN] [VDSR] [ESPCN] [RED-Net] [DRCN] [DRRN] [LapSRN & MS-LapSRN ] [ SRDenseNet ]

Оценка позы человека [DeepPose] [Tompson NIPS’14] [Tompson CVPR’15] [CPM]