Различные формы регуляризации и их эффекты

Введение

Это продолжение моей предыдущей дилетантской и загадочной статьи - Небольшая заметка о регуляризации. В статье сделано то, что обещано, но этого недостаточно, чтобы ответить на вопросы - что делает регуляризация и почему она работает, когда соответствующая модель без регуляризации не работает? Цель этой статьи - попытаться ответить на эти вопросы, используя линейную алгебру (нормальные уравнения) и статистику (компромисс оценок смещения и дисперсии).

Предположим, что инженерные переменные на скрытом интересующем уровне представляют собой X или x, которые являются функцией входных функций Z или z. На протяжении всей статьи будем предполагать, что перехват в 0, потому что в общем случае перехват не сжимается. Для простоты мы выведем аналитические результаты для линейной регрессии и обобщим результаты для логистической регрессии, предполагая, что истинная модель является линейной в пространстве (спроектированных) функций.

Важность

Я намеренно начинаю эту статью с важности регуляризации в машинном обучении. Этот раздел может быть загадочным; В оставшейся части статьи мы будем строить идеи с нуля в попытке понять эти загадочные утверждения.

Нарезка глубокой нейронной сети вдоль полностью связанного скрытого слоя с h нейронами приводит к меньшей нейронной сети ниже по потоку с h функциями.
Если выбранный выше скрытый слой является слоем перед выходным слоем, результирующая нейронная сеть эквивалентна логистической регрессии.
Простая линейная алгебра, которую можно применить к линейной / логистической регрессии, может быть расширена до глубокой нейронной сети, которая нарезана на полностью связанный скрытый слой.

Линейная регрессия

Определение модели

Оцененный

Функция потерь

Решение

Литература: Эквивалентность MLE и OLS в линейной регрессии

Аналитическое решение

L2 регуляризованная линейная регрессия

Определение модели

Оцененный

Функция потерь

Решение

Аналитическое решение

Понимание разницы

Рассмотрим ситуацию, в которой матрица дизайна не имеет полного ранга (несколько ситуаций, определенных в моей предыдущей статье: Краткое примечание о регуляризации). Следовательно, ковариационная матрица необратима. Следовательно, MLE не существует.

В этой ситуации рассмотрим два крайних случая: λ = 0 и λ = ∞.

Между этими двумя крайними случаями модифицированная матрица ковариаций, заданная формулой

станет доминирующим по диагонали с увеличением λ. Следовательно, обратимость гарантирована. Это доказывает, что оценка гребня всегда существует (строгое доказательство приведено в этой статье на StackExchange) для ненулевого λ, даже если матрица плана не имеет полного ранга.

Таким образом, мы заключаем, что проблема коллинеарности решается с помощью L2-регуляризации. У регрессии лассо (регуляризация L1) нет аналитического решения, в отличие от регрессии гребня. Ожидается, что он будет вести себя аналогично регрессии гребня при наличии коллинеарности. Регрессия лассо также выполняет отсечение путем уменьшения коэффициента переменных до 0 по мере увеличения λ (менее ∞), чего не наблюдается в гребне (строгий анализ отсечения с помощью лассо можно найти в моем Ответе на Quora). Для удобства формулировка регуляризованной линейной регрессии L1 представлена ниже:

L1 регуляризованная линейная регрессия

Определение модели

Оцененный

Функция потерь

Решение

Мы предполагаем, что поведение лассо аналогично поведению риджа с точки зрения обратимости ковариационной матрицы (строгий анализ можно найти в этой статье - стр. 5, также объясняется причина использования координатного спуска). Аналитического решения для лассо не существует, за исключением простого случая - когда ковариационная матрица является диагональной матрицей.

Примечание о диагональной ковариации: оценка параметров становится аналогичной правдоподобию профиля - изменение выбранного β на одной итерации спуска координат не влияет на другие β. Следовательно, координатный спуск сходится за 1 итерацию.

Примечание. Я рассмотрю регуляризацию L1 и L2 более строго с геометрической интерпретацией в двух отдельных статьях.

Выбывать

Отсев часто рассматривается как практический способ регуляризации нейронных сетей. Трудно рассматривать отсев из школы полностью аналитическим образом, потому что:

Он включает некоторую рандомизацию - известны только ожидаемые значения, на практике индивидуальные реализации варьируются в зависимости от начального числа.
Он выполняется для каждой выборки / мини-партии / партии (стохастического) градиентного спуска.

Модель можно рассматривать как:

На практике используется выпадение, чтобы избежать корреляции между весами. На практике это делается путем рандомизации маски, чтобы уменьшить совместное появление переменных. Теоретически веса коррелируются, когда коррелируются соответствующие предикторы. Следовательно, маскирование с использованием исключения помогает уменьшить переобучение.

Собираем вещи вместе

Давайте выберем скрытый слой перед выходным слоем. Для h ‹

Вывод

Линейные модели и глубокие нейронные сети связаны линейной алгеброй. Чрезмерно определенные системы (число предикторов ›число выборок) и коллинеарные системы (ранг‹ число предикторов) приводят к нестабильным решениям и переобучению, которые можно решить с помощью регуляризации. Три наиболее распространенных формы регуляризации - гребень, лассо и дроупут - уменьшают переобучение за счет уменьшения коллинеарности между предикторами (или скрытого слоя в глубоких нейронных сетях). Но важно отметить, что коллинеарность - не единственная причина переобучения. Существуют и другие формы регуляризации, которые штрафуют за кривизну в каждом измерении (проверьте сглаживающие сплайны).

Более строгий анализ с геометрической интерпретацией гребня и лассо будет опубликован в будущем.

дальнейшее чтение

Научная статья: Снижение переобучения в глубоких нейронных сетях путем декорреляции представлений

Научная статья: Регуляризация глубоких нейронных сетей с помощью ансамблевого метода декорреляции.

Связанная исследовательская статья: Алгоритм обучения декорреляции с набором весов для интерпретации нейронной сети и нарушения симметрии

Связанная исследовательская статья: Подход декорреляции для сокращения многослойных сетей персептронов

Различные формы регуляризации и их эффекты

Введение

Важность

Линейная регрессия

Определение модели

Оцененный

Функция потерь

Решение

Аналитическое решение

L2 регуляризованная линейная регрессия

Определение модели

Оцененный

Функция потерь

Решение

Аналитическое решение

Понимание разницы

L1 регуляризованная линейная регрессия

Определение модели

Оцененный

Функция потерь

Решение

Выбывать

Собираем вещи вместе

Вывод

дальнейшее чтение

Вопросы по теме