Концепция добавления шума к градиенту во время обучения превосходит WRN, ResNeXt и DenseNet.

В этой статье кратко рассматривается Регуляризация встряхивания (встряхивания), созданная Ксавье Гастальди из Лондонской школы бизнеса. Мотивация этой статьи заключается в том, что увеличение данных применяется к входному изображению, также возможно, можно будет применить методы увеличения данных к внутренним представлениям.

В предшествующем уровне техники обнаружено, что добавление шума к градиенту во время обучения помогает обучению и обобщению сложных нейронных сетей. И регуляризацию встряхивания-встряхивания можно рассматривать как расширение этой концепции, в которой градиентный шум заменяется формой увеличения градиента. Это статья в Семинар ICLR 2017, содержащая более 10 цитирований. А длинная версия в 2017 arXiv получила более 100 цитирований. (Сик-Хо Цанг @ средний)

Контур

  1. Регуляризация встряхивания
  2. Экспериментальные результаты
  3. Дальнейшие оценки

1. Регуляризация встряхивания

  • В частности, в данной статье исследуется 3-ветвь ResNet, как на рисунке выше, с уравнением, как показано ниже:

  • С помощью регуляризации встряхивания и встряхивания добавляется α:

  • α установлен на 0,5 во время тестирования, как и при отключении.

2. Результаты экспериментов

2.1. СИФАР-10

  • 26 2 × 32d ResNet (т.е. сеть имеет глубину 26, 2 остаточных ответвления и первый остаточный блок имеет ширину 32).
  • Встряхнуть: все коэффициенты масштабирования перезаписываются новыми случайными числами перед проходом.
  • Четный: все коэффициенты масштабирования перед проходом устанавливаются на 0,5.
  • Сохранить: для обратного прохода сохраните коэффициенты масштабирования, использованные при прямом проходе.
  • Пакет: для каждого остаточного блока i применяется один и тот же коэффициент масштабирования для всех изображений в мини-пакете.
  • Изображение: для каждого остаточного блока i применяется другой коэффициент масштабирования для каждого изображения в мини-пакете.

  • Использование Shake при прямом проходе дает лучшую производительность.
  • А Shake-Shake-Image ( S-S-I ) дает лучший результат для 26 2 × 64d ResNet и 26 2 × 96d ResNet.

2.2. СИФАР-100

  • Использование Shake при прямом проходе снова улучшает производительность.
  • В частности, лучше всего подходит Shake-Even-Image (S-E-I).

2.3. Сравнение с современными подходами

3. Дальнейшая оценка

3.1. Корреляция между остаточными ветвями

  • Чтобы вычислить корреляцию, сначала направьте мини-пакет через остаточную ветвь 1 и сохраните выходной тензор в yi (1). Аналогично остаточной ветви 2 и сохраните ее в yi (2).
  • Затем flatten yi (1) и yi (2) как flati (1) и flati (2) соответственно. И вычислите ковариацию между каждым соответствующим элементом в 2 векторах.
  • Рассчитайте отклонения плоского (1) и плоского (2).
  • Повторяйте, пока не все изображения в тестовом наборе. Используйте полученную ковариацию и дисперсию для расчета корреляции.

  • Прежде всего, корреляция между выходными тензорами двух остаточных ветвей, кажется, уменьшается за счет регуляризации. Это подтверждает предположение, что регуляризация заставляет ветви изучать что-то другое .

  • Суммирование в конце остаточных блоков приводит к выравниванию слоев на левой и правой остаточных ветвях.
  • Корреляция уменьшается за счет регуляризации.

3.2. Сила регуляризации

  • Чем дальше β от α, тем сильнее эффект регуляризации.

3.3. Удаление пропуска соединения / пакетной нормализации

  • Архитектура A - это 26 2 × 32d, но без пропуска соединения.
  • Архитектура B такая же, как A, но только с 1 сверточным слоем на ветвь и вдвое большим количеством блоков.
  • Архитектура C такая же, как A, но без пакетной нормализации.

  • Результаты архитектуры A ясно показывают, что регуляризация встряхивания может работать даже без пропуска соединения.
  • Результаты архитектуры B показывают, что регуляризация больше не работает.
  • Архитектура C затрудняет сходимость модели, делает модель намного более чувствительной. Также очень легко сделать модель расходящейся.

Благодаря простой, но новаторской идее и, конечно же, положительным результатам, он опубликован на семинаре ICLR 2017, что очень обнадеживает.

использованная литература

[2017 arXiv] [Shake-Shake]
Регуляризация Shake-Shake

[Семинар ICLR 2017] [Встряхните-встряхните]
Регуляризация трехветвевых остаточных сетей

Мои предыдущие обзоры

Классификация изображений
[LeNet] [AlexNet] [Maxout] [NIN] [ZFNet] [VGGNet] [Highway] [ SPPNet ] [ PReLU-Net ] [ STN ] [ DeepImage ] [ SqueezeNet ] [ GoogLeNet / Inception-v1 ] [ BN-Inception / Inception-v2 ] [ Inception-v3 ] [ Inception-v4 ] [ Xception ] [ MobileNetV1 ] [ ResNet ] [ Pre-Activation ResNet ] [ RiR ] [ RoR ] [ Stochastic Depth ] [ WRN ] [ FractalNet ] [ Trimps-Soushen ] [ PolyNet ] [ ResNeXt ] [ DenseNet ] [ PyramidNet ] [ DRN ] [ DPN ] [ Residual Attention Network »] [ MSDNet ] [ ShuffleNet V1 ] [ SENet ]

Обнаружение объектов
[OverFeat] [R-CNN] [Fast R-CNN] [Faster R-CNN] [MR-CNN & S-CNN ] [ DeepID-Net ] [ КРАФТ ] [ R-FCN ] [ ION ] [ MultiPathNet ] [ NoC ] [ Hikvision ] [ GBD-Net / GBD-v1 & GBD-v2 ] [ G-RMI ] [ TDM ] [ SSD ] [ DSSD ] [ YOLOv1 ] [ YOLOv2 / YOLO9000 ] [ YOLOv3 ] [ FPN ] [RetinaNet] [DCN]

Семантическая сегментация
[FCN] [DeconvNet] [DeepLabv1 & DeepLabv2] [CRF-RNN] [SegNet] [ParseNet] [DilatedNet ] [ DRN ] [ RefineNet ] [ GCN ] [ PSPNet ] [ DeepLabv3 ]

Сегментация биомедицинских изображений
[CUMedVision1] [CUMedVision2 / DCAN] [U-Net] [CFS-FCN] [U-Net + ResNet] [ Многоканальный] [V-Net] [3D U-Net] [M²FCN] [SA] [QSA + QNT] [3D U-Net + ResNet]

Сегментация экземпляра
[SDS] [Hypercolumn] [DeepMask] [SharpMask] [MultiPathNet] [MNC] [InstanceFCN] [ FCIS ]

Суперразрешение
[SRCNN] [FSRCNN] [VDSR] [ESPCN] [RED-Net] [DRCN] [DRRN] [LapSRN & MS-LapSRN] [SRDenseNet]

Оценка позы человека
[DeepPose] [Tompson NIPS’14] [Tompson CVPR’15] [CPM]