CNN фильтрует сходство — фильтры изучают одни и те же вещи?

Сверточные нейронные сети (CNN) — мощный инструмент для решения различных реальных задач. Для их обучения требуется гораздо меньше параметров, чем для сетей с прямой связью, из-за предположения о локальности: только соседние объекты должны обрабатываться вместе. Это предположение отлично работает, когда функции имеют естественный порядок или взаимное расстояние, такие как последовательности финансовых данных или матрицы изображений. Тем не менее, последние современные архитектуры требуют обучения миллионов параметров, а это означает, что требуется много вычислительных ресурсов. Логичный вопрос, зачем столько усилий? Может быть, фильтры CNN узнают то же самое — а это значит, что мы могли бы использовать меньше ресурсов для обучения модели?

Действительно, в работе [1] авторы обнаружили, что в глубоких сверточных сетях (таких как Alexnet) низкоуровневые фильтры часто образуют пары с сильной отрицательной корреляцией (грубо говоря, filter и -k*filter). Давайте обсудим основные меры сходства для фильтров CNN и то, как они могут помочь усилить их разнообразие.

Матричная норма. Один из основных подходов заключается в рассмотрении матричных норм ||(W_i-W_j)b||, где b — фиксированный вход в слой CNN, W_i — i-й фильтр слоя [2]. Основная идея состоит в том, что аналогичные фильтры будут давать одинаковую норму выходной матрицы. Пары фильтров с наименьшей нормой будут объединены в одну без изменения вывода. Количество пар для слияния может быть определено на основе данных: лучшая производительность в наборе проверки. Более продвинутый подход описан в [3]. Авторы предложили функцию потерь DeCov, которая определяется как ||W² — diag(W)²||. Потеря заставляет фильтры быть некоррелированными.
Корреляция Пирсона. Корреляция Пирсона — довольно простой подход к обнаружению подобия фильтров. Он также использовался в базовой статье [1], где изучалась отрицательная корреляция фильтров. Более сложный метод с корреляцией Пирсона был предложен в [4]. Применялась агломеративная кластеризация с полным сцеплением и max(0,1-p) как функция расстояния (p — корреляция Пирсона). Срез дерева определяется нужным количеством фильтров. Авторы также утверждали, что кластеризация k-средних не показала хороших результатов.
Косинусное сходство. Одним из свойств сходства косинусов является то, что оно обнаруживает векторы, указывающие в одном направлении. Эта метрика была предложена для фильтров CNN в [5]. Общая идея состоит в том, чтобы построить матрицу подобия, применить определенный порог t, построить граф подобия G среди всех пар фильтров, которые выше порога. Тогда группы дублированных фильтров являются связными компонентами G. Тогда мы можем заменить всю группу фильтров средним фильтром группы. Ранее аналогичная идея обсуждалась в [6]. Авторы предложили добавить в функцию потерь дополнительный член: сумму квадратов косинусных расстояний между фильтрами. Они утверждают, что эта потеря помогает декоррелировать веса, делая их более ортогональными. Эксперименты предложили уменьшить переоснащение современных архитектур классификации изображений.

Существуют также методы, которые напрямую не измеряют сходство фильтров. Например, методы регуляризации l1 и l0 использовались для обнаружения нерелевантных фильтров [7]. Эти регуляризаторы заставляют некоторую часть фильтров равняться точно нулю. После обучения можно смело удалять нулевые фильтры и повторять эту процедуру несколько раз, пока не будет достигнут желаемый уровень сжатия. Инструмент сингулярного векторного канонического корреляционного анализа был создан в [8]. Кроме того, авторы также обсудили основные методы сокращения: сокращение на основе величины, повторная инициализация после сокращения и случайная разреженная повторная инициализация.

Ссылки:

Шанг, Венлинг и др. «Понимание и улучшение сверточных нейронных сетей с помощью конкатенированных выпрямленных линейных единиц». международная конференция по машинному обучению. 2016.
Шринивас, Сурадж и Р. Венкатеш Бабу. «Обрезка параметров без данных для глубоких нейронных сетей». препринт arXiv arXiv:1507.06149 (2015 г.).

3. Когсуэлл, Майкл и др. «Уменьшение переобучения в глубоких сетях за счет декорреляции представлений». препринт arXiv arXiv:1511.06068 (2015 г.).

4. С. Гош, СКК Сриниваса, П. Амон, А. Хаттер и А. Кауп, «Глубокая обрезка сети для обнаружения объектов», Международная конференция IEEE по обработке изображений (ICIP) 2019, Тайбэй, Тайвань, 2019 г., стр. 3915–3919, doi: 10.1109/ICIP.2019.8803505.

5. Рой-Чоудхури, Аруни и др. «Уменьшение повторяющихся фильтров в глубоких нейронных сетях». Семинар NIPS по глубокому обучению: соединяя теорию и практику. Том. 1. 2017.

6. Родригес, Пау и др. «Регуляризация cnns с декорреляциями с локальными ограничениями». препринт arXiv arXiv:1611.01967 (2016 г.).

7. Коллинз, Максвелл Д. и Пушмит Кохли. «Глубокие сверточные сети, ограниченные памятью». препринт arXiv arXiv:1412.1442 (2014 г.).

8. Блейкни, Коди, Ян Ян и Зилян Цзун. «Является ли сжатие сокращения?: Исследование сокращения через сходство сетевого уровня». Зимняя конференция IEEE по приложениям компьютерного зрения. 2020.

CNN фильтрует сходство — фильтры изучают одни и те же вещи?

Вопросы по теме