Глубокое обучение стоит на двух столпах: графических процессорах и больших наборах данных. Таким образом, глубокие сети страдают при обучении с нуля на небольших наборах данных. Это явление известно как переоснащение. В этой статье [1] предлагается эволюция знаний, чтобы уменьшить как переобучение, так и нагрузку на сбор данных. В статье эволюция знаний поддерживается двумя интуитивными представлениями: Dropout и ResNets. Тем не менее, в этой статье представлена ​​еще одна третья интуиция, не упомянутая в статье.

Прежде чем углубляться в эволюцию знаний (KE), давайте определим термин «переобучение». Переобучение происходит, когда нейронная сеть входит в нижний локальный минимум. При этом минимуме потери при обучении уменьшаются, а производительность сети при разделении проверки/тестирования ухудшается. К сожалению, градиентный спуск не может вывести сеть из нижнего локального минимума. На следующем рисунке показаны два локальных минимума; оба с нулевым градиентом. Если сеть попадает в нижний локальный минимум (красный), градиентный спуск не приведет сеть к лучшему локальному минимуму (зеленый).

Чтобы выйти из нижнего локального минимума, мы можем повторно инициализировать всю сеть. Это выведет сеть из нижнего локального минимума, но она вернется к исходной точке! Вместо этого эволюция знаний (1) разделяет сеть на две части и (2) случайным образом повторно инициализирует одну из этих частей. Соответственно, некоторые знания (веса) сохраняются в непереинициализируемой части. KE разбивает заданную сеть на две части: гипотезу соответствия и гипотезу сброса. На следующем рисунке гипотеза соответствия показана синим цветом, а гипотеза сброса — серым.

KE обучает сеть для нескольких поколений, каждое из которых имеет e эпохи. После каждого поколения KE повторно инициализирует гипотезу сброса, а затем обучает следующее поколение, как показано на следующем рисунке.

Эта простая идея уменьшает переобучение и повышает производительность при работе с небольшими наборами данных. На следующем рисунке представлена ​​количественная оценка с использованием двух небольших наборов данных: Flower102 и CUB200. Пунктирные линии обозначают эффективность кросс-энтропии для двух наборов данных, а отмеченные кривые показывают эффективность эволюции знаний между поколениями. 100-е поколение обеспечивает абсолютное улучшение на 21% и 5% по сравнению с базовыми уровнями Flower-102 и CUB-200 соответственно.

Интересно, что KE достигает этих значительных улучшений при меньших затратах на вывод. В то время как обычные методы сокращения сжимают сеть после обучения, KE изучает тонкую (сокращенную) сеть во время обучения. KE развивает знание гипотезы соответствия, пока оно не совпадет со знанием всей сети. На следующем рисунке показано, как знание гипотезы соответствия развивается по мере увеличения числа поколений. Красная перечеркнутая кривая обозначает производительность всей плотной сети, а синяя пунктирная кривая обозначает производительность гипотезы соответствия. После трех поколений (g = 3) гипотеза соответствия (одна часть) достигает производительности, сравнимой с густой сетью (две части). Тем не менее, эта производительность достигается при более низкой стоимости логического вывода.

В следующей таблице показано как улучшение абсолютной точности (зеленый цвет), так и относительное сокращение объема вычислений (синий цвет), достигнутое с помощью KE. KE достигает значительных улучшений — до абсолютных 21 % при снижении стоимости логических выводов на относительные 73,5 %.

Хотя KE предлагается для небольших наборов данных, KE также поддерживает большие наборы данных (например, ImageNet). В следующей таблице оценивается KE в ImageNet с использованием двух архитектур: ResNet34 и ResNet50. KE повышает производительность как плотной сети, так и гипотезы соответствия.

Мои комментарии:

[S1] Статья хорошо написана, и авторы выложили свой код.

[S2] В статье представлено множество экспериментов как в рукописи, так и в бумажном приложении.

[W1] В статье рассматриваются сверточные нейронные сети. Я бы хотел, чтобы авторы оценивали KE с помощью сетей свертки графов (GCN). KE должен иметь большое влияние на GCN, потому что они обычно инициализируются случайным образом.

[W2] Наилучшие результаты в работе получены на наборе данных Flower102. Это вероятно, потому что Flower102 — это небольшой и крупнозернистый набор данных. Хотелось бы больше наборов данных с похожими характеристиками для подтверждения эффективности KE.

Ссылки

[1] Таха А., Шривастава А. и Дэвис Л. С. Эволюция знаний в нейронных сетях. CVPR2021.

[2] Юн, С., Парк, Дж., Ли, К., и Шин, Дж. Регуляризация предсказаний по классам с помощью дистилляции самопознания. ЦВПР2020.