Регрессионный анализ — это контролируемый алгоритм обучения, в котором мы можем прогнозировать зависимую переменную на основе независимых переменных. Существуют различные типы регрессии, такие как
- Простая линейная регрессия
- Множественная линейная регрессия
- Полиномиальная линейная регрессия
Чтобы определить взаимосвязь между независимыми и зависимыми переменными с помощью линейной регрессии, мы используем функцию стоимости, которая минимизирует сумму квадратов разностей между прогнозируемыми и фактическими значениями.
Математически,
Здесь сумма квадратов остатков равна
Ридж и лассо — это алгоритмы регрессии, которые включают дополнительную функцию, называемую штрафным сроком, которая помогает предотвратить переоснащение.
Переоснащение — это явление, при котором наша модель хорошо работает с обучающими данными, но плохо работает с тестовыми данными (низкий баланс и высокая дисперсия). С другой стороны, недообучение – это явление, при котором точность модели ухудшается при использовании данных для обучения и улучшается при использовании данных для тестирования. (Высокое смещение, высокая дисперсия). В идеале наша модель должна в целом соответствовать низкому смещению и низкой дисперсии.
Существуют различные подходы к решению проблемы переобучения на основе данных. Регуляризация – это один из таких подходов, при котором он пытается предотвратить переобучение путем включения дополнительной информации и будет эффективен, когда наши данные страдают от мультиколлиенарности. Мультиколлинеарность – это процесс, при котором независимые переменные в модели слишком тесно связаны друг с другом. В методе регуляризации мы намеренно добавляем в модель некоторые дополнительные ошибки, чтобы она не соответствовала точкам данных. Это приведет к сравнительно низкой производительности с обучающими наборами данных, но будет одинаково хорошо работать как с обучающими, так и с тестовыми наборами данных. Существует два типа регуляризации.
Регуляризация L-1 (регрессия лассо)
Регуляризация L-2 (регрессия хребта)
Лассо-регрессия
Регуляризация L-1 применяет штраф L-1, который равен абсолютному значению величины коэффициентов. Математически
Член α * | склон | это срок штрафа.
Ридж-регрессия
Он похож на Лассо, он работает, вводя член смещения, где вместо абсолютного значения наклона мы будем использовать квадрат наклона. Таким образом, математически
Член α * наклон2 является штрафным сроком.
В конце концов, оба алгоритма имеют одну и ту же цель — увеличить смещение и снизить дисперсию, чтобы предотвратить переоснащение. Но главное отличие состоит в том, что Ридж пытается сжать коэффициенты, чтобы они стали ближе к нулю, но никогда не стали фактическим нулем, в то время как Лассо может уменьшить коэффициенты до фактического нуля. Еще одно важное различие между ними заключается в том, что Lasso может выполнять выбор объектов, исключая объекты, которые бесполезны для прогнозирования, в то время как Ridge в основном применим для небольших наборов данных с меньшим количеством объектов.