Обгоняет FCN, CRF-RNN и DeepLabv2
В этой статье дается краткий обзор IDW-CNN Университета Сунь-Ят-сена, Китайского университета Гонконга и SenseTime Group (Limited).
- Точность сегментации повышается за счет изучения набора данных Image Descriptions in the Wild (IDW).
- В отличие от предыдущих наборов данных для подписей к изображениям, где подписи были вручную и плотно аннотированы, изображения и их описания в IDW автоматически загружаются из Интернета без какой-либо ручной очистки и уточнения.
Это статья CVPR за 2017 год, содержащая десятки цитирований. (Сик-Хо Цанг @ средний)
Контур
- Создание описания изображения в наборе данных Wild (IDW)
- Архитектура IDW-CNN
- Подходы к обучению
- Экспериментальные результаты
1. Создание описания изображения в наборе данных Wild (IDW)
- IDW построен в 2 этапа.
1.1. Первая ступень
- 21 часто употребляемый предлог и глагол, например «держать», «играть с», «обнимать», «ездить» и «стоять рядом», и 20 категорий объектов из VOC12, например « "человек", "корова", "велосипед", "овца" и "стол", готовы.
- Их комбинации в терминах «подлежащее + глагол / преп. + объект »приводит к 20 × 21 × 20 = 8400 различных фраз, например« человек едет на велосипеде »,« человек сидит рядом с велосипедом »и« человек стоит рядом с велосипедом ».
- Некоторые из них редко встречаются на практике, например «овца, обнимающая корову».
- Сотни значимых фраз собираются после удаления бессмысленных фраз.
1.2. Вторая стадия
- Эти фразы используются в качестве ключевых слов для поиска изображений и окружающих их текстов в Интернете.
- Недействительные фразы, такие как «человек верхом на корове», отбрасываются, если количество полученных ими изображений меньше 150, чтобы предотвратить редкие случаи или выбросы, которые могут привести к переобучению при обучении.
- В результате получается 59 актуальных фраз. Наконец, IDW имеет 41 421 изображение и описание.
- Приведенная выше гистограмма показывает распределение изображений этих объектов в реальном мире без какой-либо ручной очистки и уточнения.
1.3. Изображение Описание Представление
- Описание каждого изображения автоматически превращается в дерево синтаксического анализа, где мы выбираем полезные объекты (например, существительные) и действия (например, глаголы) в качестве наблюдений во время обучения.
- Каждую конфигурацию двух объектов и действия между ними можно рассматривать как взаимодействие объектов, что является ценной информацией для сегментации изображения, но не представлено в картах меток VOC12.
- Во-первых, Стэнфордский синтаксический анализатор используется для анализа описаний изображений и создания деревьев избирательных округов, как указано выше. Но он по-прежнему содержит нерелевантные слова, которые не описывают ни категории объектов, ни взаимодействия.
- Затем необходимо преобразовать деревья избирательных округов в семантические деревья, которые содержат только объекты и их взаимодействия. 1) фильтровать листовые узлы по их частям речи, сохраняя только существительные в качестве кандидатов объекта, а глаголы и предлоги в качестве кандидатов действий. 2) существительные преобразуются в предметы. Данные лексического отношения в WordNet для унификации синонимов. Существительные, не принадлежащие к 20 категориям объектов, будут удалены из дерева. 3) сопоставьте глаголы с определенным 21 действием, используя word2vec. 4) извлекать взаимодействия объектов из семантического дерева через узлы.
- например «Девушка играет с ягненком, держит ягненка» сначала исключается из описания, а затем переводится в «человек, играющий с овцой, держащий овец».
- После анализа всех описаний изображений в IDW всего получается 62 100 взаимодействий с объектами.
Создание IDW не требует ручного вмешательства и требует чрезвычайно низких затрат по сравнению с предыдущими наборами данных.
1.4. Три набора тестов
- int-IDW: случайным образом выберите 1440 изображений из IDW в качестве тестового набора для прогнозирования взаимодействия с объектами.
- seg-IDW: аннотируйте попиксельную карту меток для каждого изображения в int-IDW, в результате чего создается набор тестов сегментации. seg-IDW сложнее, чем VOC12, с точки зрения разнообразия объектов на каждом изображении.
- zero-IDW: набор тестов без выстрела включает 1000 изображений взаимодействия невидимых объектов. Например, образ «человек верхом на корове» - редкий случай (например, в корриде) и не используется при обучении.
2. Архитектура IDW-CNN
- Сеть можно разделить на три основные части.
2.1. Извлечение функций
- IDW-CNN использует DeepLabv2 в качестве строительного блока для извлечения признаков.
- IDW-CNN только наследует ResNet-101 от DeepLabv2, но удаляет другие компоненты, такие как многомасштабное слияние и CRF.
- Судя по изображению I, ResNet-101 выдает характеристики 2048 каналов. Размер каждого канала - 45 × 45.
2.2. Сег-поток
- Вышеупомянутые функции используются сверточным слоем для прогнозирования карты меток сегментации (обозначенной как Is), размер которой составляет 21 × 45 × 45.
2.3. Инт-поток
- Этот поток состоит из трех этапов.
- На первом этапе мы уменьшаем количество каналов функций с 2048 до 512 с помощью сверточного слоя, обозначенного как h , чтобы сократить объем вычислений на последующих этапах.
- Каждая карта характеристик в hm, hm_i получается путем предварительного преобразования поэлементного произведения («⊗») между h и каждым каналом , который представляет маску. Следовательно, каждый hm_i ∈ R размером 512 × 45 × 45 представляет маскированные характеристики i -го класса объектов.
- На втором этапе каждый hm_i используется в качестве входных данных для обучения соответствующей подсети объекта, которая выводит вероятность, характеризующую, представлен ли объект i в изображение I.
- Обучена 21 объектная подсеть, которые имеют одинаковую сетевую структуру, но их параметры не используются совместно, за исключением полностью связанных слоев. Он имеет оранжевый цвет справа от рисунка выше.
- В целом, второй этап определяет, какие объекты отображаются в I.
- На третьем этапе обучаются 22 подсети действий, каждая из которых предсказывает действие между двумя появившимися объектами. Он выделен синим цветом справа от рисунка выше.
- Например, если и "человек", и "велосипед" представлены в I, сочетание их характеристик, hm_person ⊕ hm_bike ∈ R 512 × 45 × 45, распространяется на все подсети действий.
- Наибольший отклик, скорее всего, будет вызван одной из следующих подсетей действий: «ездить», «сидеть рядом» и «стоять рядом».
2.4. Выбор пары объектов (OPS)
- OPS объединяет особенности представленных объектов. Он имеет фиолетовый цвет слева от рисунка выше.
- Например, если объектные подсети "человек", "велосипед" и "автомобиль" имеют высокие отклики, каждая пара функций среди hm_person, hm_bike и hm_car суммируются поэлементно, в результате получается три объединенных объекта, обозначенных как hm_person + bike, hm_person + car и hm_bike + car .
- Затем каждая объединенная функция направляется во все 22 подсети действий.
2.5. Уточнение
- i -я объектная подсеть дает оценку (вероятность), и все 21 оценка объединяются в вектор.
- Он рассматривается как фильтр для уточнения карты сегментации Is с использованием свертки.
3. Подходы к обучению
- Каждое изображение в IDW содержит взаимодействия объектов, но без карты меток.
- Каждое изображение в VOC12 имеет карту меток, но не взаимодействует.
- IDW-CNN оценивает псевдо-метку для каждого образца и рассматривает это как основную истину в BP.
- Для Seg-stream скрытый Is_idw оценивается как «псевдопредставитель путем объединения прогнозируемой карты сегментации, Is_idw и метки прогнозируемых объектов lo_idw.
- Для Int-stream получается предварительное распределение по действиям между каждой парой объектов. Для «велосипед» и «человек» это априорное значение дает высокие вероятности по сравнению с четырьмя указанными выше действиями и низкую вероятность по другим. На этапе обучения функция потерь предлагает низкий штраф, если предсказанное действие входит в одно из вышеперечисленных, в противном случае - высокий штраф.
4. Экспериментальные результаты.
- ResNet-101: 74,2% mIoU.
- IDW-CNN (10k): 10k изображений IDW для обучения, 81,8% mIoU.
- IDW-CNN (20k): 20k изображений IDW для обучения, 85,2% mIoU.
- IDW-CNN (40k): 40k изображений IDW для обучения, 86,3% mIoU. И он превосходит подходы SOTA, такие как FCN, CRF-RNN и DeepLabv2.
- Подобно набору данных seg-IDW, IDW-CNN (40k) имеет лучшую производительность.
- Вспомните - n (n = 5, 10), измеряя вероятность того, что истинное взаимодействие будет среди 5 или 10 наиболее предсказанных взаимодействий.
- IDW-CNN превосходит остальных на 3% на Recall-5.
- Полная модель IDW-CNN по-прежнему пользуется наибольшим спросом.
Ссылка
[2017 CVPR] [IDW-CNN]
Взаимодействие с обучающими объектами и описания для семантической сегментации изображений
Мои предыдущие обзоры
Классификация изображений [LeNet] [AlexNet] [Maxout] [NIN] [ZFNet] [VGGNet] [Highway] [SPPNet] [ PReLU-Net] [STN] [DeepImage] [SqueezeNet] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Inception-v3] [ Inception-v4 ] [ Xception ] [ MobileNetV1 ] [ ResNet ] [ Pre-Activation ResNet ] [ RiR ] [ RoR ] [ Stochastic Depth ] [ WRN ] [ Shake-Shake] [FractalNet] [Trimps-Soushen] [PolyNet] [ResNeXt] [DenseNet] [PyramidNet] [DRN] [DPN] [ Сеть остаточного внимания ] [ DMRNet / DFN-MR ] [ IGCNet / IGCV1 ] [ MSDNet ] [ ShuffleNet V1 ] [ SENet ] [ NASNet ] [ MobileNetV2 ]
Обнаружение объекта [OverFeat] [R-CNN] [Fast R-CNN] [Faster R-CNN] [MR-CNN & S-CNN] [ DeepID-Net ] [ КРАФТ ] [ R-FCN ] [ ION ] [ MultiPathNet ] [ NoC ] [ Hikvision ] [ GBD-Net / GBD-v1 и GBD-v2 ] [ G-RMI ] [ TDM ] [ SSD ] [ DSSD ] [ YOLOv1 ] [ YOLOv2 / YOLO9000 ] [ YOLOv3 ] [ FPN ] [ RetinaNet ] [DCN]
Семантическая сегментация [FCN] [DeconvNet] [DeepLabv1 & DeepLabv2] [CRF-RNN] [SegNet] [ParseNet] [DilatedNet] [ DRN ] [ RefineNet ] [ GCN ] [ PSPNet ] [ DeepLabv3 ] [ LC ] [ FC-DenseNet ] [ IDW-CNN ]
Сегментация биомедицинских изображений [CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-FCN] [U-Net + ResNet] [MultiChannel] [V-Net] [3D U-Net] [M²FCN] [SA] [QSA + QNT] [3D U-Net + ResNet]
Сегментация экземпляра [SDS] [Hypercolumn] [DeepMask] [SharpMask] [MultiPathNet] [MNC] [InstanceFCN] [FCIS]
Суперразрешение [SRCNN] [FSRCNN] [VDSR] [ESPCN] [RED-Net] [DRCN] [DRRN] [LapSRN & MS-LapSRN ] [ SRDenseNet ]
Оценка позы человека [DeepPose] [Tompson NIPS’14] [Tompson CVPR’15] [CPM]