В этой (G) старой статье [1] рассматривается интересный вопрос: почему предварительное обучение без присмотра помогает глубокому обучению? Авторы подкрепляют свой вывод массой экспериментов. Тем не менее, полученные данные противоречат распространенному мнению о неконтролируемом обучении. Вот почему у меня противоречивое мнение об этой статье. Я сначала представлю статью; затем следите за моими комментариями.

Авторы стремятся понять, как неконтролируемая предварительно обученная помощь. Есть две основные гипотезы:

  1. Лучшая оптимизация. Неконтролируемое предварительное обучение помещает сеть в область пространства параметров, где бассейны притяжения простираются глубже, чем при запуске со случайными параметрами. Проще говоря, сеть начинается вблизи глобального минимума. В отличие от локального минимума, глобальный минимум означает меньшую ошибку обучения.
  2. Лучшая регуляризация: неконтролируемое предварительное обучение помещает сеть в область пространства параметров, в которой ошибка обучения не обязательно лучше, чем при случайном запуске (или, возможно, хуже), но которая систематически дает лучшее обобщение (ниже ошибка теста). Такое поведение свидетельствует об эффекте регуляризации.

Статья склоняется ко второй гипотезе, то есть неконтролируемое владение является методом регуляризации. На следующем рисунке этот вывод представлен путем сравнения ошибки обучения и ошибки теста с неконтролируемой предварительной подготовкой и без нее. Это статья 2010 года; он использует трехуровневую полносвязную сеть для оценки. Набор данных MNIST используется в большинстве экспериментов.

На крайнем правом рисунке обратите внимание, как ошибка обучения (ось X) ниже без предварительной подготовки, а ошибка теста (ось Y) ниже с предварительной подготовкой. Это противоречит гипотезе лучшей оптимизации, потому что предполагает, что предварительное обучение приведет к меньшей ошибке обучения (более глубокому погружению в глобальный минимум).

Затем в документе утверждается, что «Не все регуляризаторы созданы равными». Неконтролируемый предобучающий регуляризатор намного лучше по сравнению с регуляризаторами L1/L2 (каноническими). Это связано с тем, что эффективность канонического регуляризатора снижается по мере роста набора данных, тогда как эффективность неконтролируемого предварительного обучения в качестве регуляризатора поддерживается по мере роста набора данных. На следующем рисунке показано, что по мере увеличения размера набора данных (ось X) ошибка теста (ось Y) продолжает уменьшаться при предварительном обучении без учителя.

Наконец, в статье количественно оценивается влияние порядка обучающих выборок на выходную дисперсию сети. Высокая дисперсия указывает на то, что порядок обучающих выборок существенно влияет на задачу оптимизации. Высокая дисперсия — это плохо; сеть должна сходиться к аналогичным решениям, если она обучена на одном и том же наборе данных и из одной и той же случайной инициализации. Обученная сеть не должна зависеть от порядка выборок во время обучения.

Следующий рисунок показывает, что это не так. Ранние обучающие выборки влияют на выходные данные сетей больше, чем те, которые находятся в конце. Однако эта дисперсия ниже для предварительно обученных сетей. Наконец, обе сети (с предварительным обучением и без него) больше подвержены влиянию последних примеров, используемых для оптимизации, что просто связано с тем, что они используют стохастический градиент с постоянной скоростью обучения, где наиболее градиент недавних примеров имеет большее влияние.

Мои комментарии

  • В документе содержится масса экспериментов, но в этой статье представлен лишь краткий обзор.
  • Статья старая даже для меня :) Мне потребовалось несколько сеансов, чтобы дочитать ее. Я не знаком с ограниченными машинами Больцмана (пока), которые используются во время экспериментов. Тем не менее, мне удалось прочитать статью и узнать много интересного.
  • Большинство неконтролируемых учебных работ, в которых используются CNN, визуализируют фильтр первого конверсионного слоя, как показано на следующем рисунке. На рисунке показано, что неконтролируемое предварительное обучение изучает фильтры, подобные V1, с учетом немаркированных данных. Эти фильтры выглядят как детекторы краев и пятен (три верхних ряда). Глобальное минимальное решение будет иметь подобные фильтры V1. Соответственно, неконтролируемое релевантность — это больше, чем просто регуляризатор. Эти фильтры создают впечатление, что неконтролируемое предварительное обучение приближает сеть к области пространства параметров, где бассейны притяжения проходят глубже. Проще говоря, неконтролируемое обучение приближает сеть к глобальному минимуму.

  • Наконец, в CVPR 2020[3] есть недавняя статья, в которой смягчается влияние неконтролируемого предварительного обучения по мере увеличения размера набора данных. Это противоречит выводам этой статьи [1] (рис. 2 в этой статье).

[1] Почему неконтролируемое предварительное обучение помогает глубокому обучению?

[2] Неконтролируемое обучение визуальным представлениям с использованием видео

[3] Насколько полезна предварительная тренировка с самоконтролем для визуальных задач?