Введение
Это продолжение моей предыдущей дилетантской и загадочной статьи - Небольшая заметка о регуляризации. В статье сделано то, что обещано, но этого недостаточно, чтобы ответить на вопросы - что делает регуляризация и почему она работает, когда соответствующая модель без регуляризации не работает? Цель этой статьи - попытаться ответить на эти вопросы, используя линейную алгебру (нормальные уравнения) и статистику (компромисс оценок смещения и дисперсии).
Предположим, что инженерные переменные на скрытом интересующем уровне представляют собой X или x, которые являются функцией входных функций Z или z. На протяжении всей статьи будем предполагать, что перехват в 0, потому что в общем случае перехват не сжимается. Для простоты мы выведем аналитические результаты для линейной регрессии и обобщим результаты для логистической регрессии, предполагая, что истинная модель является линейной в пространстве (спроектированных) функций.
Важность
Я намеренно начинаю эту статью с важности регуляризации в машинном обучении. Этот раздел может быть загадочным; В оставшейся части статьи мы будем строить идеи с нуля в попытке понять эти загадочные утверждения.
- Нарезка глубокой нейронной сети вдоль полностью связанного скрытого слоя с h нейронами приводит к меньшей нейронной сети ниже по потоку с h функциями.
- Если выбранный выше скрытый слой является слоем перед выходным слоем, результирующая нейронная сеть эквивалентна логистической регрессии.
- Простая линейная алгебра, которую можно применить к линейной / логистической регрессии, может быть расширена до глубокой нейронной сети, которая нарезана на полностью связанный скрытый слой.
Линейная регрессия
Определение модели
Оцененный
Функция потерь
Решение
Литература: Эквивалентность MLE и OLS в линейной регрессии
Аналитическое решение
L2 регуляризованная линейная регрессия
Определение модели
Оцененный
Функция потерь
Решение
Аналитическое решение
Понимание разницы
Рассмотрим ситуацию, в которой матрица дизайна не имеет полного ранга (несколько ситуаций, определенных в моей предыдущей статье: Краткое примечание о регуляризации). Следовательно, ковариационная матрица необратима. Следовательно, MLE не существует.
В этой ситуации рассмотрим два крайних случая: λ = 0 и λ = ∞.
Между этими двумя крайними случаями модифицированная матрица ковариаций, заданная формулой
станет доминирующим по диагонали с увеличением λ. Следовательно, обратимость гарантирована. Это доказывает, что оценка гребня всегда существует (строгое доказательство приведено в этой статье на StackExchange) для ненулевого λ, даже если матрица плана не имеет полного ранга.
Таким образом, мы заключаем, что проблема коллинеарности решается с помощью L2-регуляризации. У регрессии лассо (регуляризация L1) нет аналитического решения, в отличие от регрессии гребня. Ожидается, что он будет вести себя аналогично регрессии гребня при наличии коллинеарности. Регрессия лассо также выполняет отсечение путем уменьшения коэффициента переменных до 0 по мере увеличения λ (менее ∞), чего не наблюдается в гребне (строгий анализ отсечения с помощью лассо можно найти в моем Ответе на Quora). Для удобства формулировка регуляризованной линейной регрессии L1 представлена ниже:
L1 регуляризованная линейная регрессия
Определение модели
Оцененный
Функция потерь
Решение
Мы предполагаем, что поведение лассо аналогично поведению риджа с точки зрения обратимости ковариационной матрицы (строгий анализ можно найти в этой статье - стр. 5, также объясняется причина использования координатного спуска). Аналитического решения для лассо не существует, за исключением простого случая - когда ковариационная матрица является диагональной матрицей.
Примечание о диагональной ковариации: оценка параметров становится аналогичной правдоподобию профиля - изменение выбранного β на одной итерации спуска координат не влияет на другие β. Следовательно, координатный спуск сходится за 1 итерацию.
Примечание. Я рассмотрю регуляризацию L1 и L2 более строго с геометрической интерпретацией в двух отдельных статьях.
Выбывать
Отсев часто рассматривается как практический способ регуляризации нейронных сетей. Трудно рассматривать отсев из школы полностью аналитическим образом, потому что:
- Он включает некоторую рандомизацию - известны только ожидаемые значения, на практике индивидуальные реализации варьируются в зависимости от начального числа.
- Он выполняется для каждой выборки / мини-партии / партии (стохастического) градиентного спуска.
Модель можно рассматривать как:
На практике используется выпадение, чтобы избежать корреляции между весами. На практике это делается путем рандомизации маски, чтобы уменьшить совместное появление переменных. Теоретически веса коррелируются, когда коррелируются соответствующие предикторы. Следовательно, маскирование с использованием исключения помогает уменьшить переобучение.
Собираем вещи вместе
Давайте выберем скрытый слой перед выходным слоем. Для h ‹
Вывод
Линейные модели и глубокие нейронные сети связаны линейной алгеброй. Чрезмерно определенные системы (число предикторов ›число выборок) и коллинеарные системы (ранг‹ число предикторов) приводят к нестабильным решениям и переобучению, которые можно решить с помощью регуляризации. Три наиболее распространенных формы регуляризации - гребень, лассо и дроупут - уменьшают переобучение за счет уменьшения коллинеарности между предикторами (или скрытого слоя в глубоких нейронных сетях). Но важно отметить, что коллинеарность - не единственная причина переобучения. Существуют и другие формы регуляризации, которые штрафуют за кривизну в каждом измерении (проверьте сглаживающие сплайны).
Более строгий анализ с геометрической интерпретацией гребня и лассо будет опубликован в будущем.
дальнейшее чтение
Научная статья: Снижение переобучения в глубоких нейронных сетях путем декорреляции представлений
Научная статья: Регуляризация глубоких нейронных сетей с помощью ансамблевого метода декорреляции.
Связанная исследовательская статья: Алгоритм обучения декорреляции с набором весов для интерпретации нейронной сети и нарушения симметрии
Связанная исследовательская статья: Подход декорреляции для сокращения многослойных сетей персептронов