Приносим извинения за задержку. Мы знаем, что вы с нетерпением ждали вторую часть этого сериала. В прошлом блоге мы увидели, что деградация приводит к снижению точности в более глубокой нейронной сети. В этом блоге давайте посмотрим, как они могут устранить эту проблему.

Статья: Глубокое остаточное обучение для распознавания изображений

Решение

Проблема деградации решается с помощью Deep Residual Learning Framework. Так о чем все это?

Методика глубокого остаточного обучения в основном предлагает следующее:

«Вместо того, чтобы надеяться, что несколько сложенных слоев узнают желаемое отображение x-› y без ссылок, обозначенное h (x), пусть функция невязки f (x) будет определена так, что f (x) = h (x) - x, что может быть изменено как h (x) = f (x) + x ».

Гипотеза авторов состоит в том, что легче оптимизировать разность f (x), чем оптимизировать отображение h (x) без ссылки. По сути, это означает, что если отображение идентичности является оптимальным, очень легко сделать остаточную функцию равной 0. Таким образом, первоначальный эксперимент по получению такой же точности в 100-слойной сети, что и 50-слойная мелкая сеть, был успешным. наблюдаемый.

Типы остаточных соединений:

  1. Если входные и выходные размеры совпадают:

Здесь функция F (x, {Wi}) представляет остаточное отображение, которое необходимо изучить. Операция F + x выполняется путем быстрого соединения и поэлементного сложения.

2. Если входные и выходные размеры не совпадают:

Здесь параметр Ws используется только для соответствия размерам. В документе доказывается, что отображение идентичности достаточно для решения проблемы деградации и что параметр Ws должен использоваться только для сопоставления размеров.

На приведенном выше снимке показан верхний 1 процент ошибок для экспериментов, проведенных авторами на 18 и 34 уровнях, где 18-слойная модель фактически была подмножеством 34-слойной модели. Авторы утверждают, что более высокая ошибка в 34-слойной простой сети не связана с исчезающими градиентами, поскольку эти слои обучаются с использованием пакетной нормализации, которая гарантирует, что прямые распространяемые сигналы имеют ненулевые дисперсии. Они также утверждают, что градиенты, распространяющиеся в обратном направлении, демонстрируют здоровые нормы с пакетной нормализацией. Так что ни прямые, ни обратные сигналы не исчезают.

С другой стороны, ResNet не только превосходит обычную сеть, но и модель с 34 уровнями имеет более низкий коэффициент ошибок, чем модель с 18 уровнями. ResNet сравним с простой моделью, поскольку никаких дополнительных измерений не вводится, поскольку для сопоставления размеров используется только заполнение нулями. Давайте посмотрим на результаты других экспериментов, проведенных авторами:

Авторы использовали три варианта реализации ResNet:

a) ярлыки с нулевым заполнением используются для увеличения размеров, и все ярлыки не содержат параметров.

б) ярлыки проекции используются для увеличения размеров, а другие ярлыки идентичны.

в) все ярлыки являются проекциями.

Их эксперименты показали, что между всеми тремя вариантами почти не было разницы в ошибках, при этом c) работает лучше, чем a) и b), потому что c) вводит немного больше параметров, что дает более высокий коэффициент ошибок. Близкие коэффициенты ошибок для а), б) и в) указывают на то, что ResNet смог убедительно решить проблему деградации.

При создании более глубоких моделей было сделано одно интересное наблюдение: ResNet-152 (11,3 миллиарда FLOP) был менее сложным, чем VGG16 / 19 (15,3 / 19,6 миллиарда FLOP). Однако в чрезвычайно больших сетях якобы наблюдалась проблема деградации, в которой авторы винят переоснащение.

Еще одна новая идея, представленная в этой статье, но которую многие упускают из виду, - это использование дополнений в тестовом наборе данных. Обычно мы применяем преобразования к набору обучающих данных, чтобы получить больше данных. Но применение дополнения к самим данным тестирования позволяет улучшить проверку, потому что тестовые изображения всегда могут иметь шум, размытие и т. Д., И их можно исправить с помощью различных преобразований и обрезки. Итак, авторы предложили использовать 5 копий каждого тестового изображения, случайную обрезку и т. Д., А затем выбирать значение тестирования, которое дает лучший результат.

Заключение:

ResNet была прорывной работой не только как новая модель, но и потому, что остаточное обучение было новой концепцией, а не ограничивалось каким-то конкретным вариантом использования. Остаточное обучение есть и может быть распространено на другие области для будущих исследований.

Мы надеемся, что вы смогли понять, как работает ResNet и как он задерживает проблему деградации.

Если вам понравился блог, не забудьте подписаться на нас и оставить нам аплодисменты (мы не против более одного аплодисмента 😝)

Следите за нами в Twitter, Instagram, LinkedIn, Facebook и GitHub для будущих обновлений!