Часто новичков пугает количество используемых архитектур CNN и терминов Deep Learning, что может сбивать с толку. Эта серия блогов представляет собой попытку решить эти проблемы, предлагая несколько краткий обзор архитектур, доступных в отрасли, чтобы помочь вам принять решение.

ConvNet: в глубоком обучении сверточная нейронная сеть (CNN) - это класс глубоких нейронных сетей, наиболее часто используемых для анализа визуальных образов.

Архитектура ConvNet в основном состоит из 3-х элементов:

  1. Слои свертки
  2. Объединение слоев
  3. Полностью связанные слои

Давайте углубимся в это:

Свертка - термин свертка относится к математической комбинации двух функций для получения третьей функции.

Объединение - цель объединения состоит в понижении дискретизации входного представления (изображение, выходная матрица скрытого слоя и т. д.), уменьшение его размеров и позволяя делать предположения о функциях, содержащихся в созданных подобластях.

Полностью связанные слои - FCL в нейронной сети - это те слои, где все входные данные из одного слоя подключены к каждую единицу активации следующего слоя.

Архитектуры ConvNet следуют общему правилу последовательного применения сверточных слоев к входным данным, периодически понижая дискретизацию пространственных измерений при одновременном уменьшении количества карт функций с использованием слоев объединения.

Карты объектов - карта объектов - это результат действия одного фильтра, примененного к предыдущему слою. То есть на каждом слое карта объектов является результатом этого слоя.

Обсуждаемые архитектуры используются в качестве общих руководств по проектированию для адаптации современных программистов и используются для реализации извлечения и исследования функций, которые в дальнейшем используются для классификации изображений, обнаружения объектов, субтитров изображений, сегментации изображений и многого другого.

Некоторые распространенные архитектуры: -

  1. LeNet-5
  2. AlexNet
  3. VGG 16
  4. Начало (GoogLeNet)
  5. ResNet
  6. DenseNet

В этой части мы поговорим о первых трех архитектурах, которые можно рассматривать как классические архитектуры ConvNet.

LeNet-5

LeNet-5 - это сверточная нейронная сеть, предложенная Янном ЛеКуном в 1989 году. Это была одна из самых ранних архитектур ConvNet, которая оказала доминирующее влияние на будущие архитектуры.

Структура

LeNet-5 включает 2 набора слоев свертки и максимального объединения, за которыми следует уплощающий сверточный слой, затем два полностью связанных слоя и, наконец, классификатор softmax.

Параметры

~ 60 000 параметров

Приложения

Основным применением этой архитектуры было распознавание простых рукописных числовых цифр и широко использовалось для распознавания рукописных почтовых индексов в почтовых службах США. Он может обеспечить точность ›98% для набора данных MNIST всего за 20 эпох.

MNIST- Модифицированная база данных Национального института стандартов и технологий - это обширная база данных рукописных цифр, которая обычно используется для обучения различных систем обработки изображений. База данных также широко используется для обучения и тестирования машинного обучения.

AlexNet

AlexNet - сверточная нейронная сеть, разработанная Алексом Крижевским в 2012 году. AlexNet считается самой влиятельной архитектурой нейронной сети и по состоянию на 2020 год цитировался более 65 000 раз.

Структура

AlexNet состоит из 5 сверточных слоев с 3 полностью связанными слоями, за которыми следует слой softmax. Из этих 5 сверточных слоев 3 слоя имеют максимальный уровень объединения.

Параметры

~ 62 миллиона параметров

Приложение

AlexNet может выполнять классификацию изображений на изображениях и известен тем, что выигрывал в 2012 году конкурс ImageNet LSVRC-2012 с большим отрывом (15,3% против 26,2% (второе место), процент ошибок).

ImageNet- ImageNet - это формальный проект, направленный на (вручную) маркировку и категоризацию изображений почти по 22 000 отдельных категорий объектов для исследования компьютерного зрения. Модели обучаются на ~ 1,2 миллиона обучающих изображений, еще 50 000 изображений для проверки и 100 000 изображений для тестирования.

ВГГ-16

VGG Net - сверточная нейронная сеть, изобретенная Симоняном и Зиссерманом из Visual Geometry Group (VGG) в Оксфордский университет в 2014 году.

Структура

VGG-16 состоит из 13 сверточных слоев с максимальным объединением уровня каждые 2–3 уровня, за которым следуют 3 полностью связанных слоя и, наконец, слой softmax. Что ставит эту ConvNet над другими, так это постоянное использование одних и тех же сверток с фиксированным фильтром и шагом и всегда с одинаковым заполнением и слоем максимального пула фильтра 2x2 с шагом 2.

Существует вариант этой сети, называемый VGG-19, который следует той же схеме, но с 16 сверточными слоями и 3 полностью соединенными слоями.

Параметры

~ 138 миллионов параметров

Приложение

На сегодняшний день VGG-16 считается одной из самых совершенных архитектур моделей машинного зрения, получив в 2014 году невероятную точность 92,7% на сайте ImageNet.

использованная литература

Https://www.jeremyjordan.me/convnet-architectures/

Https://en.wikipedia.org/wiki/Convolutional_neural_network#History

Https://engmrk.com/lenet-5-a-classic-cnn-architecture/

Https://en.wikipedia.org/wiki/AlexNet

Https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

Https://engmrk.com/alexnet-implementation-using-keras/

Https://www.robots.ox.ac.uk/~vgg/research/very_deep/