Часто новичков пугает количество используемых архитектур CNN и терминов Deep Learning, что может сбивать с толку. Эта серия блогов представляет собой попытку решить эти проблемы, предлагая несколько краткий обзор архитектур, доступных в отрасли, чтобы помочь вам принять решение.
ConvNet: в глубоком обучении сверточная нейронная сеть (CNN) - это класс глубоких нейронных сетей, наиболее часто используемых для анализа визуальных образов.
Архитектура ConvNet в основном состоит из 3-х элементов:
- Слои свертки
- Объединение слоев
- Полностью связанные слои
Давайте углубимся в это:
Свертка - термин свертка относится к математической комбинации двух функций для получения третьей функции.
Объединение - цель объединения состоит в понижении дискретизации входного представления (изображение, выходная матрица скрытого слоя и т. д.), уменьшение его размеров и позволяя делать предположения о функциях, содержащихся в созданных подобластях.
Полностью связанные слои - FCL в нейронной сети - это те слои, где все входные данные из одного слоя подключены к каждую единицу активации следующего слоя.
Архитектуры ConvNet следуют общему правилу последовательного применения сверточных слоев к входным данным, периодически понижая дискретизацию пространственных измерений при одновременном уменьшении количества карт функций с использованием слоев объединения.
Карты объектов - карта объектов - это результат действия одного фильтра, примененного к предыдущему слою. То есть на каждом слое карта объектов является результатом этого слоя.
Обсуждаемые архитектуры используются в качестве общих руководств по проектированию для адаптации современных программистов и используются для реализации извлечения и исследования функций, которые в дальнейшем используются для классификации изображений, обнаружения объектов, субтитров изображений, сегментации изображений и многого другого.
Некоторые распространенные архитектуры: -
- LeNet-5
- AlexNet
- VGG 16
- Начало (GoogLeNet)
- ResNet
- DenseNet
В этой части мы поговорим о первых трех архитектурах, которые можно рассматривать как классические архитектуры ConvNet.
LeNet-5
LeNet-5 - это сверточная нейронная сеть, предложенная Янном ЛеКуном в 1989 году. Это была одна из самых ранних архитектур ConvNet, которая оказала доминирующее влияние на будущие архитектуры.
Структура
LeNet-5 включает 2 набора слоев свертки и максимального объединения, за которыми следует уплощающий сверточный слой, затем два полностью связанных слоя и, наконец, классификатор softmax.
Параметры
~ 60 000 параметров
Приложения
Основным применением этой архитектуры было распознавание простых рукописных числовых цифр и широко использовалось для распознавания рукописных почтовых индексов в почтовых службах США. Он может обеспечить точность ›98% для набора данных MNIST всего за 20 эпох.
MNIST- Модифицированная база данных Национального института стандартов и технологий - это обширная база данных рукописных цифр, которая обычно используется для обучения различных систем обработки изображений. База данных также широко используется для обучения и тестирования машинного обучения.
AlexNet
AlexNet - сверточная нейронная сеть, разработанная Алексом Крижевским в 2012 году. AlexNet считается самой влиятельной архитектурой нейронной сети и по состоянию на 2020 год цитировался более 65 000 раз.
Структура
AlexNet состоит из 5 сверточных слоев с 3 полностью связанными слоями, за которыми следует слой softmax. Из этих 5 сверточных слоев 3 слоя имеют максимальный уровень объединения.
Параметры
~ 62 миллиона параметров
Приложение
AlexNet может выполнять классификацию изображений на изображениях и известен тем, что выигрывал в 2012 году конкурс ImageNet LSVRC-2012 с большим отрывом (15,3% против 26,2% (второе место), процент ошибок).
ImageNet- ImageNet - это формальный проект, направленный на (вручную) маркировку и категоризацию изображений почти по 22 000 отдельных категорий объектов для исследования компьютерного зрения. Модели обучаются на ~ 1,2 миллиона обучающих изображений, еще 50 000 изображений для проверки и 100 000 изображений для тестирования.
ВГГ-16
VGG Net - сверточная нейронная сеть, изобретенная Симоняном и Зиссерманом из Visual Geometry Group (VGG) в Оксфордский университет в 2014 году.
Структура
VGG-16 состоит из 13 сверточных слоев с максимальным объединением уровня каждые 2–3 уровня, за которым следуют 3 полностью связанных слоя и, наконец, слой softmax. Что ставит эту ConvNet над другими, так это постоянное использование одних и тех же сверток с фиксированным фильтром и шагом и всегда с одинаковым заполнением и слоем максимального пула фильтра 2x2 с шагом 2.
Существует вариант этой сети, называемый VGG-19, который следует той же схеме, но с 16 сверточными слоями и 3 полностью соединенными слоями.
Параметры
~ 138 миллионов параметров
Приложение
На сегодняшний день VGG-16 считается одной из самых совершенных архитектур моделей машинного зрения, получив в 2014 году невероятную точность 92,7% на сайте ImageNet.
использованная литература
Https://www.jeremyjordan.me/convnet-architectures/
Https://en.wikipedia.org/wiki/Convolutional_neural_network#History
Https://engmrk.com/lenet-5-a-classic-cnn-architecture/
Https://en.wikipedia.org/wiki/AlexNet