Ридж, лассо и регрессия эластичной сети

В этой статье мы откажемся от часто используемого алгоритма линейной регрессии и попытаемся изучить некоторые другие альтернативы регрессии, а именно лассо, гребень и эластичные сети. К концу статьи у вас будет хорошее представление о различиях и работе трех вышеупомянутых алгоритмов, их приложениях в задачах машинного обучения и о том, когда что использовать.

Компромисс между смещением и дисперсией:

При обучении и тестировании наших моделей машинного обучения мы часто сталкиваемся со случаями, когда ошибка, возникающая в результате одного или обоих, обучающего и тестового наборов, оказывается выше ожидаемой. Это могло произойти по нескольким причинам, одной из которых является компромисс между смещением и дисперсией.

Смещение – это склонность модели делать прогнозы, отличающиеся от фактических значений, а Дисперсия – это отклонение прогнозов для разных выборок данных. Модель с высоким смещением пытается чрезмерно упростить модель, тогда как модель с высокой дисперсией не может обобщить невидимые данные. При уменьшении смещения модель становится восприимчивой к высокой дисперсии и наоборот. Следовательно, компромисс или баланс между этими двумя показателями определяет хорошую прогностическую модель.

Модель с низким смещением и высокой дисперсией называется подгонкой. Это тот случай, когда модель действительно хорошо работает на обучающем наборе, но не работает на невидимом наборе экземпляров, что приводит к высокие значения ошибки. Одним из способов борьбы с переоснащением является Регуляризация, и это именно то, что используется в методах регрессии, обсуждаемых ниже.

Регуляризация:

Регуляризация — это метод, используемый для предотвращения переобучения, когда коэффициенты, при необходимости, ограничиваются или уменьшаются до нуля. Уменьшение влияния менее важных функций напрямую влияет на качество прогнозов, поскольку уменьшает степень свободы, что, в свою очередь, затрудняет усложнение модели или переобучение данных.

Все, что обсуждалось ранее, делается путем изменения традиционной функции стоимости линейной регрессии, показанной выше. К функции стоимости добавляется штрафной член, который позволяет нам контролировать тип и объем регуляризации, выполняемой в рассматриваемой модели. Если вы не знакомы с уравнением, показанным выше, вам следует посмотреть это видео.

Регрессия хребта:

Этот тип регуляризованной регрессии имеет штрафной член, равный половине квадрата нормы L2, добавленной к функции стоимости. Это заставляет алгоритм обучения не только подгонять данные, но и поддерживать как можно меньшие веса модели. Уравнение гребневой регрессии показано ниже.

Норма L2 представляет собой сумму квадратов разностей между прогнозируемыми и целевыми значениями по вектору признаков. Он также известен как евклидово расстояние и среднеквадратическая ошибка (RMSE).

Гиперпараметр усадки λ (лямбда) контролирует степень регуляризации и должен быть выбран правильно, потому что, если λ = 0, то гребенчатая регрессия аналогична линейной регрессии, а с другой стороны, если λ очень велико, то все веса в конечном итоге очень близко к нулю, что приводит к недостаточной подгонке модели. Один из хороших способов выбрать правильный λ — выполнить перекрестную проверку.

Лассо регрессия:

Сокращение от Наименьшее абсолютное сокращение и регрессия оператора выбора. Этот тип регуляризованной регрессии использует норму L1 вместо половины квадрата нормы L2 в качестве штрафного члена в функции стоимости. Важной характеристикой регрессии Лассо является то, что она имеет тенденцию полностью исключать веса наименее важных функций и, таким образом, автоматически выполняет выбор функций.

Норма L1 представляет собой сумму величин различий между прогнозируемыми и целевыми значениями по вектору признаков или может пониматься как сумма абсолютных различий. Он также известен как Манхэттенское расстояние, норма такси и средняя абсолютная ошибка (MAE).

Гиперпараметр усадки λ работает так же, как и в регрессии хребта, слишком малое значение не приводит к регуляризации, а слишком большое значение приводит к несоответствию модели.

Ключевое различие между регрессией Риджа и регрессией Лассо заключается в том, что, хотя оба метода регрессии уменьшают коэффициенты ближе к нулю, только регрессия Лассо фактически устанавливает их равными нулю, если параметр сжатия достаточно велик. Таким образом, в результате получается модель с выбранным набором функций (разреженная модель), что значительно упрощает интерпретацию и работу с ней.

Эластичная чистая регрессия:

Этот вид регрессии представляет собой просто смесь регрессии Риджа и регрессии Лассо. Срок штрафа в Elastic Nets представляет собой комбинацию как абсолютного, так и квадратного штрафа.

Эластичная сеть впервые появилась в результате критики Лассо, выбор переменных которого может быть слишком зависимым от данных и, следовательно, нестабильным. Решение состоит в том, чтобы объединить штрафы регрессии Риджа и Лассо, чтобы получить лучшее из обоих миров. ("Источник")

Сочетание регуляризации Ridge и Lasso можно контролировать с помощью гиперпараметра Ratio (r). Когда r = 0, эластичная сеть эквивалентна регрессии хребта, а когда r = 1, она эквивалентна регрессии Лассо.

Несколько моментов, которые нужно помнить:

Как мы видели во введении, регуляризация может значительно помочь избежать переобучения, поэтому небольшая регуляризация почти всегда предпочтительнее общей линейной регрессии.
Важно масштабировать данные перед применением любого из трех упомянутых методов, поскольку все они чувствительны к масштабу входных объектов. Это можно сделать с помощью StandardScaler sklearn.
Регрессия хребта — хорошая отправная точка, но если есть шанс, что на самом деле полезными будут только несколько функций, могут пригодиться Лассо и эластичные сети, поскольку они, как правило, уменьшают веса бесполезных функций сведены к нулю.
С другой стороны, если признаков меньше и все они кажутся важными с точки зрения цели, то регрессия гребня должна быть первым выбором, поскольку она имеет тенденцию давать небольшие, но хорошо распределенные веса.
Эластичная сеть предпочтительнее, чем регрессия Лассо, когда количество признаков больше, чем количество экземпляров обучения, или когда несколько признаков сильно коррелированы, потому что в таких случаях Лассо может добавить немного предвзятости.

Заключение :

В этой статье мы узнали о компромиссе смещения и дисперсии, почему это необходимо и как с помощью регуляризации мы можем достичь хорошего баланса. Затем мы рассмотрели три типа методов регрессии: Коньковый, Лассо и Эластичные сети, их математические выражения и, наконец, рассмотрели различия и моменты, которые следует помнить при выборе одного из них. Спасибо!