— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —
Регуляризация имеет важное значение в машинном обучении, поскольку она используется для предотвращения переобучения. Член регуляризации добавляется, чтобы коэффициенты не подходили так идеально, чтобы соответствовать переобучению.
В первую очередь методы регуляризации L1 и L2 — это контролируемое машинное обучение, используемое для задач регрессии. Прежде чем углубляться, нам нужно понять концепцию функции стоимости. В любой проблеме регрессии, чтобы определить, как работает модель, мы анализируем функцию стоимости (также называемую функцией потерь/ошибок). Это мера того, насколько неверна модель с точки зрения ее способности оценивать взаимосвязь между зависимой и независимой ценностью.
- Модель, в которой используется L1 — регрессия Лассо (оператор наименьшего абсолютного сокращения и выбора); L1 добавляет абсолютное значение коэффициентов в качестве штрафного члена к функции стоимости.
Функция стоимости в регрессии Лассо
Стоимость=(y−Xβ)^T(y−Xβ)+λ|β|; λ|β| является термином L1
2. Тот, который использует L2 — регрессию гребня; L2 добавляет квадратную величину коэффициентов в качестве штрафного члена к функции стоимости.
Функция стоимости в гребневой регрессии
Стоимость=(y−Xβ)^T(y−Xβ)+λβ^Tβ; λβ^Tβ – термин L2
3. Как функции ошибок - L1 – это наименьшая абсолютная ошибка, сводящая к минимуму сумму абсолютных ошибок между фактическим и прогнозируемым классом (остатки), а L2 – наименьшая квадратичная ошибка, сводящая к минимуму сумму квадратов разницы между фактическим и прогнозируемым классом.
Модель L1 более надежна, чем модель L2, где надежность — это устойчивость к выбросам в данных. Если модель может игнорировать выбросы, она более надежна. Поскольку норма L2 возводит ошибку в квадрат, модель увидит гораздо большую ошибку (экспоненциально) по сравнению с L1 (которая учитывает ошибки линейно).
Норма L2 более стабильна, чем норма L1, где стабильность — это устойчивость к горизонтальным корректировкам.
L2 обеспечивает уникальность решения, так как использует евклидово расстояние по сравнению с L1, в котором используется манхэттенское расстояние.