ImageNet и конкурс ImageNet:

Доктор. Ли является изобретателем ImageNet и ImageNet Challenge, важного крупномасштабного набора данных и результатов сравнительного анализа, которые способствовали последним разработкам в области глубокого обучения и искусственного интеллекта.
Это сбор данных. набор из более чем 15 миллионов помеченных изображений с высоким разрешением, принадлежащих примерно к 22 000 категориям.

Введение:

(предыстория исследования и цель.)

В рамках конкурса ILSVRC — ImageNet Large-Scale Visual Recognition Challenge в рамках Pascal Visual Object Challenge, начиная с 2010 г. — Крижевский и его коллеги обучили одну из крупнейших сверточных нейронных сетей на подмножества ImageNet, которые использовались в соревнованиях ILSVRC-2010 и ILSVRC-2012 и достигли наилучших результатов.

В этом блоге я попытаюсь обобщить результаты исследования этой сверточной нейронной сети, также известной как AlexNet.

ILSVRC использует подмножество ImageNet с примерно 1000 изображений в каждой из 1000 категорий.
Всего имеется около 1,2 миллиона обучающих изображений, 50 000 проверочных изображений и 150 000 тестовых изображений.

Процедуры:

(Опишите особенности этого исследования.)

Исследование включает в себя детали, которые они используют для реализации своей модели, например, как они предварительно обработали данные, какую архитектуру они выбрали, какие методы регуляризации они использовали и почему, а также некоторые подробности о гиперпараметрах.

Набор данных (ImageNet):

ILSVRC-2010 — единственная версия ILSVRC, для которой доступны метки наборов тестов. Соревнования ILSVRC-2012, для которых недоступны метки тестовых наборов.

ImageNet состоит из изображений с переменным разрешением, в то время как система требует постоянной входной размерности. Так что им пришлось с этим справиться.

  1. Масштабируйте возможно прямоугольное изображение так, чтобы короткая сторона составляла 256 пикселей.
  2. Возьмите средний патч 256x256 в качестве входного изображения.

Архитектура

Содержит восемь изученных слоев (пять сверточных и три полносвязных)

В документе команда упомянула, что у сети необычная архитектура, которая делает ее такой эффективной.

Вот некоторые из необычных особенностей архитектуры сети:

1- Нелинейность ReLU

Они использовали функцию активации ReLU (нейроны с нелинейностью — Rectified Linear Units).

Эта цифра из бумаги — лучший способ объяснить их выбор!

Рисунок 1: Четырехслойные сверточные нейронные модели. сеть с ReLU (сплошная линия) достигает 25%, частота ошибок обучения на CIFAR-10 в шесть раз выше, чем у эквивалентной сети с нейронами Tanh (пунктирная линия).

  • Скорость обучения для каждой сети выбиралась независимо, чтобы сделать обучение максимально быстрым.
  • Никакой регуляризации не применялось.

Вывод: Глубокие сверточные нейронные сети с ReLU обучаются в несколько раз быстрее, чем их аналоги с модулями Tanh.

Команда считает, что

Более быстрое обучение оказывает большое влияние на производительность больших моделей, обученных на больших наборах данных.

2 — обучение на нескольких графических процессорах

Для обучения такого большого набора данных требуется память! Поэтому команда распределила сеть по двум графическим процессорам.

Текущие графические процессоры особенно хорошо подходят для распараллеливания между графическими процессорами, поскольку они могут считывать и записывать в память друг друга напрямую, минуя память хост-машины.

  • Ставит половину ядер на каждый GPU.
  • Графические процессоры взаимодействуют только на определенных уровнях!

Они также упомянули локальную нормализацию ответа, перекрывающийся пул, для более подробной информации я рекомендую прочитать ссылку на исходную статью ниже!

Уменьшение переобучения

Обучая такой большой набор данных, команда рассматривает два способа борьбы с переоснащением.

  • Расширение данных: в котором они используют две формы
    1- Состоит из генерации переводов изображений и горизонтальных отражений (извлечение случайных фрагментов 224 x 224 и их горизонтальных отражений из изображений 256 x 256 и обучение сети на эти извлеченные патчи.
    2- Состоит из изменения интенсивности каналов RGB в обучающих изображениях (они выполняют увеличение цвета PAC для набора значений пикселей RGB во всем обучающем наборе ImageNet).
  • Dropout: Состоит из обнуления выходных данных каждого скрытого нейрона с вероятностью 0,5.

Обучение

Модель была обучена с помощью стохастического градиентного спуска с импульсом 0,9, падением веса 0,0005 и размером партии 128. сильные> изображения

Инициализация:

  • Веса (в каждом слое): из распределения Гаусса с нулевым средним значением со стандартным отклонением 0,01.
  • Смещения (во втором, четвертом и пятом сверточных слоях + полносвязные скрытые слои) с константой 1.

→ ускоряет ранние этапы обучения, предоставляя ReLU положительные входные данные.

  • скорость обучения (для всех слоев): настраивалась вручную во время обучения. Он был инициализирован в 0,01.

Время обучения:

  • Пять-шесть дней на двух графических процессорах NVIDIA GTX 580 3 ГБ. (90 циклов через обучающий набор из 1,2 миллиона изображений.)

Результаты:

(основные выводы и результаты.)

Основные результаты AlexNet заключаются в том, что он смог распознавать объекты, расположенные не по центру, и большинство его пяти лучших классов для каждого изображения являются разумными.

AlexNet достиг коэффициента ошибок Top-1 37,5% и коэффициента ошибок Top-5 17,0% на ILSVRC-2010.

В 2012 Challenge авторы предварительно обучили модель на выпуске набора данных ImageNet 2011 Fall и снизили частоту ошибок до 15,3%.

Вывод:

(Обобщая выводы исследователей.)

Используя исключительно обучение с учителем, глубокая сверточная нейронная сеть смогла добиться отличных результатов. Количество слоев и типы точно подобраны для этого исполнения.

Личные примечания:

Это исследование познавательно! в частности, аргументы, используемые для разъяснения того, почему было принято конкретное решение о выборе значения или функции гиперпараметра.
В нем было несколько концепций, которые мне пришлось изучить дальше, например нормализация локального ответа и обучение на нескольких графических процессорах.

Учебный документ: Классификация ImageNet с глубокими свёрточными нейронными сетями.