Введение

Это продолжение моей предыдущей дилетантской и загадочной статьи - Небольшая заметка о регуляризации. В статье сделано то, что обещано, но этого недостаточно, чтобы ответить на вопросы - что делает регуляризация и почему она работает, когда соответствующая модель без регуляризации не работает? Цель этой статьи - попытаться ответить на эти вопросы, используя линейную алгебру (нормальные уравнения) и статистику (компромисс оценок смещения и дисперсии).

Предположим, что инженерные переменные на скрытом интересующем уровне представляют собой X или x, которые являются функцией входных функций Z или z. На протяжении всей статьи будем предполагать, что перехват в 0, потому что в общем случае перехват не сжимается. Для простоты мы выведем аналитические результаты для линейной регрессии и обобщим результаты для логистической регрессии, предполагая, что истинная модель является линейной в пространстве (спроектированных) функций.

Важность

Я намеренно начинаю эту статью с важности регуляризации в машинном обучении. Этот раздел может быть загадочным; В оставшейся части статьи мы будем строить идеи с нуля в попытке понять эти загадочные утверждения.

  • Нарезка глубокой нейронной сети вдоль полностью связанного скрытого слоя с h нейронами приводит к меньшей нейронной сети ниже по потоку с h функциями.
  • Если выбранный выше скрытый слой является слоем перед выходным слоем, результирующая нейронная сеть эквивалентна логистической регрессии.
  • Простая линейная алгебра, которую можно применить к линейной / логистической регрессии, может быть расширена до глубокой нейронной сети, которая нарезана на полностью связанный скрытый слой.

Линейная регрессия

Определение модели

Оцененный

Функция потерь

Решение

Литература: Эквивалентность MLE и OLS в линейной регрессии

Аналитическое решение

L2 регуляризованная линейная регрессия

Определение модели

Оцененный

Функция потерь

Решение

Аналитическое решение

Понимание разницы

Рассмотрим ситуацию, в которой матрица дизайна не имеет полного ранга (несколько ситуаций, определенных в моей предыдущей статье: Краткое примечание о регуляризации). Следовательно, ковариационная матрица необратима. Следовательно, MLE не существует.

В этой ситуации рассмотрим два крайних случая: λ = 0 и λ = ∞.

Между этими двумя крайними случаями модифицированная матрица ковариаций, заданная формулой

станет доминирующим по диагонали с увеличением λ. Следовательно, обратимость гарантирована. Это доказывает, что оценка гребня всегда существует (строгое доказательство приведено в этой статье на StackExchange) для ненулевого λ, даже если матрица плана не имеет полного ранга.

Таким образом, мы заключаем, что проблема коллинеарности решается с помощью L2-регуляризации. У регрессии лассо (регуляризация L1) нет аналитического решения, в отличие от регрессии гребня. Ожидается, что он будет вести себя аналогично регрессии гребня при наличии коллинеарности. Регрессия лассо также выполняет отсечение путем уменьшения коэффициента переменных до 0 по мере увеличения λ (менее ∞), чего не наблюдается в гребне (строгий анализ отсечения с помощью лассо можно найти в моем Ответе на Quora). Для удобства формулировка регуляризованной линейной регрессии L1 представлена ​​ниже:

L1 регуляризованная линейная регрессия

Определение модели

Оцененный

Функция потерь

Решение

Мы предполагаем, что поведение лассо аналогично поведению риджа с точки зрения обратимости ковариационной матрицы (строгий анализ можно найти в этой статье - стр. 5, также объясняется причина использования координатного спуска). Аналитического решения для лассо не существует, за исключением простого случая - когда ковариационная матрица является диагональной матрицей.

Примечание о диагональной ковариации: оценка параметров становится аналогичной правдоподобию профиля - изменение выбранного β на одной итерации спуска координат не влияет на другие β. Следовательно, координатный спуск сходится за 1 итерацию.

Примечание. Я рассмотрю регуляризацию L1 и L2 более строго с геометрической интерпретацией в двух отдельных статьях.

Выбывать

Отсев часто рассматривается как практический способ регуляризации нейронных сетей. Трудно рассматривать отсев из школы полностью аналитическим образом, потому что:

  1. Он включает некоторую рандомизацию - известны только ожидаемые значения, на практике индивидуальные реализации варьируются в зависимости от начального числа.
  2. Он выполняется для каждой выборки / мини-партии / партии (стохастического) градиентного спуска.

Модель можно рассматривать как:

На практике используется выпадение, чтобы избежать корреляции между весами. На практике это делается путем рандомизации маски, чтобы уменьшить совместное появление переменных. Теоретически веса коррелируются, когда коррелируются соответствующие предикторы. Следовательно, маскирование с использованием исключения помогает уменьшить переобучение.

Собираем вещи вместе

Давайте выберем скрытый слой перед выходным слоем. Для h ‹

Вывод

Линейные модели и глубокие нейронные сети связаны линейной алгеброй. Чрезмерно определенные системы (число предикторов ›число выборок) и коллинеарные системы (ранг‹ число предикторов) приводят к нестабильным решениям и переобучению, которые можно решить с помощью регуляризации. Три наиболее распространенных формы регуляризации - гребень, лассо и дроупут - уменьшают переобучение за счет уменьшения коллинеарности между предикторами (или скрытого слоя в глубоких нейронных сетях). Но важно отметить, что коллинеарность - не единственная причина переобучения. Существуют и другие формы регуляризации, которые штрафуют за кривизну в каждом измерении (проверьте сглаживающие сплайны).

Более строгий анализ с геометрической интерпретацией гребня и лассо будет опубликован в будущем.

дальнейшее чтение

Научная статья: Снижение переобучения в глубоких нейронных сетях путем декорреляции представлений

Научная статья: Регуляризация глубоких нейронных сетей с помощью ансамблевого метода декорреляции.

Связанная исследовательская статья: Алгоритм обучения декорреляции с набором весов для интерпретации нейронной сети и нарушения симметрии

Связанная исследовательская статья: Подход декорреляции для сокращения многослойных сетей персептронов