Обычное руководство по контролируемому обучению с помощью scikit-learn — Обобщенные линейные модели Лассо (4)

Это четвертая часть из серии из 92 частей традиционного руководства по обучению с учителем с помощью scikit-learn, написанного с целью овладеть навыками реализации алгоритмов для продуктивного использования и объяснить алгоритмическую логику, лежащую в их основе. Ссылки на все части смотрите в первой статье.

Лассо-регрессия

Это продолжение обсуждения регрессии хребта. Перед продолжением прочтите статью.

Методы усадки направлены на уменьшение (или сокращение) значений коэффициентов до нуля по сравнению с обычным методом наименьших квадратов. Преимущество методов усадки заключается в том, что оценочные модели демонстрируют меньшую дисперсию, чем оценки методом наименьших квадратов. Кроме того, некоторые методы сокращения также сокращают количество ковариат, включенных в регрессионную модель, давая оценки коэффициентов точно равными нулю, что облегчает процесс выбора модели. Двумя широко используемыми методами усадки являются гребневая регрессия и регрессия Лассо (оператор выбора наименьшей абсолютной усадки). Их сходства и различия, а также те, что связаны с оценкой методом наименьших квадратов, становятся очевидными при изучении задач оптимизации, решаемых каждым методом:

Учитывая, что у нас есть понимание термина регуляризации из предыдущей статьи о гребневой регрессии, давайте посмотрим на разницу в расчете термина.

Лагранжева формулировка гребня и регрессии Лассо соответственно:

И для гребня, и для лассо вы должны установить так называемый «параметр регуляризации», который определяет, насколько агрессивно выполняется регуляризация. параметры регуляризации обычно выбираются перекрестной проверкой.

Для регрессии Риджа параметр регуляризации часто называют «альфа» или «L2»; он просто определяет силу регуляризации.

Для LASSO параметр регуляризации часто называют «лямбда» или «L1».

В отличие от Ridge, регуляризация LASSO фактически установит менее важные предикторы в 0 и поможет вам выбрать предикторы, которые можно исключить из модели.

Разница между выпуклой кривой, которую они рисуют. Оценка методом наименьших квадратов соответствует задаче минимизации без ограничений, гребневая регрессия добавляет гладкое выпуклое ограничение L2, а регрессия Лассо — выпуклое, но негладкое ограничение L1. Метод наименьших квадратов способствует включению как можно большего количества ковариат, поскольку это помогает уменьшить сумму квадратов.

примечание: источник информации выше

Выбор функций с помощью лассо

Поскольку регрессия Лассо дает разреженные модели, ее можно использовать для выбора признаков. Это будет обсуждаться в статьях о выборе функций в будущем.

Давайте перейдем непосредственно к кодированию, чтобы понять концепции, которые мы обсуждали.

Кредиты

Все кредиты относятся к документации Scikit-learn, а все ссылки соответствуют официальному руководству пользователя.

Также спасибо моему другу, который считает, что «успех для меня заключается в том, что я оказал достаточное влияние, чтобы мир стал лучше», что мотивирует меня начать с нуля, чтобы в какой-то момент изменить ситуацию.

об авторе

Я Венали Сононе, специалист по данным по профессии, а также изучаю менеджмент и стремлюсь продвинуться по карьерной лестнице в финансовой сфере.