Неделя 15. Очень глубокие сверточные сети для крупномасштабной классификации изображений. (Карен Симонян и Эндрю Зиссерман)

Это журнальная статья, опубликованная в 2015 году на Международной конференции по образовательным представлениям, среди которых профессионалы и исследователи в области искусственного интеллекта, или широко известного как глубокое обучение.

Карен Симонян и Эндрю Зиссерман предложили и представили на конференции свою работу по очень глубоким сверточным сетям для крупномасштабной классификации изображений, подчеркнув влияние глубины сверточной сети на ее точность при распознавании крупномасштабных изображений.

Архитектура.

Авторы описали архитектуру сетей и реализованные конфигурации. Сверточные сети — или ConvNets, как они их сокращают, настройка для исследования — это ввод размером 224 на 224 пикселя входного изображения RGB. Поскольку работа окружена цветом RGB, я полагал, что они должны использовать 3-канальный фильтр с первым сверточным слоем. Позже изображение проходит через стопку сверточных слоев, где они реализуют использование фильтра ядра размером 3 на 3. Авторы также используют размер фильтра 1 на 1 в некоторых настройках. Шаг фиксируется только на 1 пиксель, максимальное объединение ограничено только 5 слоями.

В целом, архитектура выглядит как стек сверточных слоев, за которыми следуют 3 полностью связанных слоя (некоторые называют это плотными слоями), где в этих слоях они использовали значение 1000, где каждый представляет класс. Последний слой реализует функцию активации под названием Softmax. Использование Softmax в этом случае является хорошим выбором, поскольку они имеют дело с многоклассовыми классификациями. Скрытые слои, состоящие из плотных слоев, слоев Max-Pooling, оснащены функцией активации Rectification Linear Unit (ReLu).

Обучение.

Обучение, используемое в этой статье, определяло использование функции активации градиентного спуска с импульсом. Используемая скорость обучения установлена ​​в степени -2 и уменьшилась еще в 10 раз, когда точность набора проверки перестала улучшаться. Команда также применила метод увеличения изображения к входному изображению, случайно обрезав масштабированные обучающие изображения, чтобы получить фиксированный размер входного размера 224 x 224. Команда также дополняет ввод таким образом, что они случайным образом переворачивают его по горизонтали и случайным образом смещают цвет RGB.

Эксперименты по классификации

Команда тестирует свою архитектуру, используя набор данных ImageNet Large Scale Visual Recognition Challenge в 2012 году, состоящий из 1000 классов изображений, разделенных на 3 набора; Набор для обучения, проверки и тестирования. Они также используют набор проверки в качестве набора тестов для большинства экспериментов.

Сравнение с современными технологиями

По сути, эта команда назвала свою архитектуру VGG, которая, как видно из первых трех в таблице выше, значительно превосходит модели предыдущих поколений, обеспечивая наименьшее количество ошибок в топ-1 и топ-5, соответственно, 23,7% и 6,8. %.

Спасибо, что провели здесь время. Это краткое изложение первой статьи, которую я просмотрел. Обязательно настройтесь на следующий пост, где я рассмотрю второй документ, связанный с этим исследованием.