— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

Регуляризация имеет важное значение в машинном обучении, поскольку она используется для предотвращения переобучения. Член регуляризации добавляется, чтобы коэффициенты не подходили так идеально, чтобы соответствовать переобучению.

В первую очередь методы регуляризации L1 и L2 — это контролируемое машинное обучение, используемое для задач регрессии. Прежде чем углубляться, нам нужно понять концепцию функции стоимости. В любой проблеме регрессии, чтобы определить, как работает модель, мы анализируем функцию стоимости (также называемую функцией потерь/ошибок). Это мера того, насколько неверна модель с точки зрения ее способности оценивать взаимосвязь между зависимой и независимой ценностью.

  1. Модель, в которой используется L1 — регрессия Лассо (оператор наименьшего абсолютного сокращения и выбора); L1 добавляет абсолютное значение коэффициентов в качестве штрафного члена к функции стоимости.

Функция стоимости в регрессии Лассо

Стоимость=(y−Xβ)^T(y−Xβ)+λ|β|; λ|β| является термином L1

2. Тот, который использует L2 — регрессию гребня; L2 добавляет квадратную величину коэффициентов в качестве штрафного члена к функции стоимости.

Функция стоимости в гребневой регрессии

Стоимость=(y−Xβ)^T(y−Xβ)+λβ^Tβ; λβ^Tβ – термин L2

3. Как функции ошибок - L1 – это наименьшая абсолютная ошибка, сводящая к минимуму сумму абсолютных ошибок между фактическим и прогнозируемым классом (остатки), а L2 – наименьшая квадратичная ошибка, сводящая к минимуму сумму квадратов разницы между фактическим и прогнозируемым классом.

Модель L1 более надежна, чем модель L2, где надежность — это устойчивость к выбросам в данных. Если модель может игнорировать выбросы, она более надежна. Поскольку норма L2 возводит ошибку в квадрат, модель увидит гораздо большую ошибку (экспоненциально) по сравнению с L1 (которая учитывает ошибки линейно).

Норма L2 более стабильна, чем норма L1, где стабильность — это устойчивость к горизонтальным корректировкам.

L2 обеспечивает уникальность решения, так как использует евклидово расстояние по сравнению с L1, в котором используется манхэттенское расстояние.