Часть 5 из 5: Пересмотр концепции индекса сходства и введение нового игрока.

Отношения состоят из двух вещей. Во-первых, ценить сходство и, во-вторых, уважать различия

Индексы подобия и их свойства инвариантности

Для обученной нейронной сети матрицу активаций M можно записать в виде:

где s — количество примеров, использованных для обучения mнейронов.

Индекс сходстваs(X, Y), таким образом, будет относиться к двум матрицам активации X и Y, где X содержит активации для p1 нейронов, а Y содержит активации для p2 нейронов, каждая обучены на n примерах. Чтобы иметь эффективный индекс подобия, он должен обладать определенными свойствами инвариантности:

  • Ортогональное преобразование s(X, Y ) = s(X U, Y V ) для ортонормированных матриц полного ранга U и V. Это особенно желательно для нейронных сетей, обученных методом градиентного спуска. Поскольку инвариантность к ортогональному преобразованию подразумевает инвариантность к перестановке, которая необходима для учета симметрий нейронных сетей, ортогональное преобразование входных данных не влияет на динамику обучения градиентному спуску.
  • Изотропный скейлинг, s(X, Y) = s(αX, βY ) для любых α, β ∈ R+.
  • Но не для линейного преобразования. Индекс сходства называется инвариантным к обратимому линейному преобразованию, если он удовлетворяет условию s(X, Y ) = s(XA, YB) для любых матриц полного ранга A и B. Обученные нейронные сети из разных случайных инициализаций получаются представления с одинаковыми большими главными компонентами и, следовательно, с одинаковыми евклидовыми расстояниями между примерами. Инвариантность к обратимому линейному преобразованию означала бы, что шкала направлений в пространстве активации не имеет значения, что прямо противоречит осмысленности расстояний и игнорирует этот важный аспект репрезентации. Таким образом, инвариантный к линейному преобразованию индекс = не подходит для сравнения изученных представлений.

Связанные индексы сходства

Теперь, когда мы перечислили три важных свойства инвариантности индексов сходства, давайте рассмотрим основные методы, которые используются для сравнения сходства между представлениями нейронных сетей.

Существуют и другие методы, такие как сравнение выравнивания между отдельными нейронами. Этот подход сместил акцент с выравнивания между подпространствами, но не дает многообещающих результатов в случае промежуточных слоев нейронных сетей. Другой подход взаимной информации фиксирует нелинейные статистические зависимости между переменными, которые в данном случае представляют собой выравнивание нейронов. Однако исследователи не считают использование взаимной информации подходящим для сравнения представлений.

CKA как индекс сходства

Понятие выравнивания ядра было введено еще в 2001 году. Оно определяло принцип измерения степени соответствия между ядром и учебной задачей и широко использовалось для выбора ядра из-за его эффективности и низкой вычислительной сложности. Поскольку можно предположить, что обучающие наборы данных линейно разделимы в пространстве признаков, выравнивание ядра можно использовать в качестве меры оценки для обучения ядра и выбора модели. Поэтому, чтобы раскрыть сложное взаимодействие между динамикой обучения и структурированными данными, исследователи из Google Brain, в том числе отец сверточных сетей Джеффри Хинтон, предложили использовать Centered Kernel Alignment (CKA) в качестве индекса сходства в 2019 году.

Линейный CKA тесно связан с CCA и линейной регрессией. Он напоминает CCA в том смысле, что собственные векторы, которые объясняют величину дисперсии X или Y, взвешиваются по своим собственным значениям. В то время как SVCCA и CCA с проекционным взвешиванием были мотивированы идеей о том, что собственные векторы с малыми собственными значениями не имеют значения, CKA включает это взвешивание симметрично и может быть вычислено без разложения матрицы.

Команде удалось показать, что CKA может определять соответствие между скрытыми слоями нейронных сетей, обученных на разных случайных инициализациях и с разной шириной; сценарии, в которых ранее предложенные индексы сходства не сработали. Благодаря использованию CKA также было установлено, что более широкие сети узнают больше похожих представлений, сходство ранних слоев насыщено меньшим количеством каналов, чем более поздние слои. Кроме того, ранние слои, но не более поздние слои, изучили схожие представления в разных наборах данных.

Возвращаясь к вопросам, которые были подняты в Части 1 этой серии, давайте посмотрим, как CKA ответила на них:

  • Учат ли глубокие нейронные сети с одинаковой архитектурой, обученные на разных случайных инициализациях, схожие представления?

На приведенном выше рисунке показан CKA между слоями отдельных CNN с разной глубиной, где слои повторялись 2, 4 или 8 раз. Удвоение глубины повысило точность, но большие множители повредили. При 8-кратном увеличении CKA показал, что представления более половины сети очень похожи на последний слой.

  • Можем ли мы установить соответствие между уровнями различных сетевых архитектур?

CKA одинаково эффективен при выявлении взаимосвязей между уровнями различных архитектур.

CKA указал, что по мере того, как сети становятся глубже, новые уровни эффективно вставляются между старыми уровнями. Другие индексы подобия не смогли выявить значимых отношений между различными архитектурами.

  • Насколько похожи представления, полученные с использованием одной и той же сетевой архитектуры из разных наборов данных?

CKA также можно использовать для сравнения сетей, обученных на разных наборах данных. На рисунке показано, что модели, обученные на CIFAR-10 и CIFAR-100, создали аналогичные представления на своих ранних уровнях. Эти представления требовали обучения, но сходство с необученными сетями оказалось намного ниже.

Кажется, что CKA намного лучше, чем предыдущие методы, находит соответствия между изученными представлениями в скрытых слоях нейронных сетей. Однако остается открытым вопрос, существуют ли ядра помимо линейных ядер и ядер RBF, которые лучше подходят для анализа представлений нейронных сетей.

Этим рассказом я завершаю серию из пяти частей, посвященных обученным представлениям и их сходству в нейронных сетях.

Источники: