Мы часто почти везде читаем, что регрессия Лассо поощряет использование нулевого коэффициента и, следовательно, также является отличным инструментом для выбора переменных, но понять это очень сложно. В этой статье я попытался обсудить это подробно.

Содержание

  1. Переобучение и регуляризация
  2. Интуиция 1: оптимизировать модель с одним коэффициентом
  3. Интуиция 2: Посмотрите на этот простой пример
  4. Интуиция 3: Наблюдайте за этим красивым изображением
  5. Интуиция 4: Вероятностная интерпретация L1 и L2

Переобучение и регуляризация

Переобучение – это явление, при котором модель машинного обучения не может хорошо обобщить невидимые данные. Когда наша модель сложная (например, полиномиальная регрессия с очень высокой степенью или очень глубокая нейронная сеть) и у нас меньше обучающих данных, в этих случаях модель имеет тенденцию запоминать обучающие данные и плохо обобщает невидимые данные.

Посмотрите на это изображение из Википедии, на котором зеленая линия показывает границу решения переобученного классификатора, а черная — регуляризованного. Мы видим, что хотя зеленая граница решения, кажется, не дает ошибки обучения, она не будет хорошо обобщать невидимые данные.

Регуляризация — это один из способов уменьшить переоснащение модели машинного обучения путем добавления дополнительного штрафа к функции потерь. Штраф добавляется по некоторым нормам параметров. Когда функция потерь модели линейной регрессии использует норму параметров L1, модель регрессии называется Лассо-регрессия, а модель, использующая нормы L2, называется Регрессия гребня. .

Интуиция 1: оптимизировать модель с одним коэффициентом

Как объяснено здесь, рассмотрим модель гребневой регрессии с одним коэффициентом β, уравнение для функции потерь регрессии L2 в этом случае может быть дано следующим образом:

Чтобы минимизировать это уравнение, нам нужно будет взять производную по β и приравнять ее к 0, чтобы получить оптимальное значение коэффициента.

Из приведенного выше уравнения видно, что для того, чтобы коэффициент β был равен 0 при ненулевых значениях x и y, λ→∞. Теперь давайте рассмотрим случай регрессии L1 или лассо.

Рассмотрим случай, когда β>0, и минимизируем выражение для потерь L1, продифференцировав его относительно β.

Аналогично, для β‹0 мы получаем следующее уравнение:

Из обоих приведенных выше уравнений мы видим, что в случае регуляризации L1 существует бесконечное число возможных значений x и y для заданного λ, для которых β может быть равно 0. Следовательно в отличие от регрессии Риджа, регрессия LASSO или L1 поощряет 0 коэффициентов, поэтому действует как метод выбора переменных.

Интуиция 2: Посмотрите на этот простой пример

Это был первый хороший интуитивный вывод, связанный с этой темой в книге Мерфи Machine Learning: A Probabilistic Perspective (страница № 431). Рассмотрим набор разреженных векторов β с двумя значениями, β₁ = (1, 0), и другой набор плотных векторов β с двумя значениями, такими как β₂ = (1/√2, 1/√2).

В случае регуляризации L2 β₁ и β₂ оба присваивают один и тот же вес, поскольку норма L2 у них обоих одинакова.

Но когда мы рассмотрим случай регуляризации L1, если мы посмотрим на норму L1 β₁ (разреженного вектора), мы обнаружим, что она меньше, чем у β₂ (плотного вектора), как видно из следующего уравнения.

Следовательно, это показывает, что LASSO поощряет нулевые коэффициенты.

Интуиция 3: Наблюдайте за этим красивым изображением

Здесь мы рассмотрим известную диаграмму регуляризации из ESL Хасти, страница № 71.

Мне было очень трудно понять эту цифру, пока я не наткнулся на этот замечательный блог от explained.ai. Я настоятельно рекомендую вам заглянуть в этот и другие блоги того же автора, доступные на сайте. Они действительно намного более интуитивны и хорошо объяснены. Вы также можете найти там код для всех кривых, которые они используют.

Давайте посмотрим на следующие две диаграммы из вышеупомянутых блогов.

Мы видим, что минимальная стоимость в случае L1 определяется фиолетовой точкой на вершине ромба. Двигаясь по краю ромба, мы обнаруживаем, что удаляемся от черной точки, и, следовательно, с ней связаны более высокие затраты, например, посмотрите на желтую точку на краю ромба. Следовательно, в случае регрессии L1 или LASSO оптимальные значения параметров с большей вероятностью будут найдены на вершине ромба. В отличие от этого, давайте рассмотрим случай регрессии Риджа, т. е. ограниченный круг L2; мы видим, что оптимальное значение параметров не на оси, так как мы получаем минимальную стоимость на фиолетовой точке, которая находится вдали от оси. Чтобы было понятнее, давайте посмотрим на другой рисунок из того же блога.

Интуиция 4: Вероятностная интерпретация L1 и L2

В этой части я предполагаю, что вы знаете некоторые основы теоремы Байеса. Вы можете изучить некоторые ресурсы, связанные с этим. Здесь я опущу многие детали. Для получения более подробной информации вы можете посмотреть ответы на этот вопрос с перекрестной проверкой и этот замечательный блог Брайана Кенга. Большинство приведенных здесь уравнений и объяснений взяты из блога Брайана Кенга.

Оценка максимального логарифмического правдоподобия для модели линейной регрессии может быть дана как

Мы просто выбираем такое β, для которого среднеквадратическая ошибка между наблюдаемым значением y и прогнозируемым значением ŷ минимальна. С помощью простой модификации приведенного выше выражения оценка максимального логарифмического правдоподобия для регрессии L1 и L2 может быть записана следующим образом:

Оценка правдоподобия для обычной линейной регрессии также может быть дана с помощью следующего (если мы не рассматриваем логарифмическое) уравнения:

Из Теоремы Байеса мы знаем, что апостериорный, определяется следующим образом:

В случае байесовских методов нас в первую очередь интересует апостериорный, то есть распределение вероятностей параметра β с учетом наблюдаемых данных y, в отличие от классических методов, где мы пытаемся найти наилучшие параметры для максимизации вероятность, то есть вероятность наблюдения данных (y) при различных значениях параметров.

Априоры — это просто некоторая дополнительная предыдущая информация о β до того, как встретились данные y.

Максимальная апостериорная оценка вероятности (MAP)

В этом случае мы попытаемся максимизировать P(β|y), то есть апостериорную вероятность. MAP тесно связан с MLE, но также включает предварительное распределение, поэтому действует как регуляризация MLE.

Регуляризация L2 и гауссовский априор

Рассмотримнормально распределенное априорное значение с нулевым средним значением для каждого значения βᵢ, все с одинаковой дисперсией τ². Из уравнения правдоподобия для обычной линейной регрессии и уравнения оценки MAP, которые мы использовали ранее, мы имеем:

Таким образом, мы видим, что MAP-оценка коэффициентов линейной регрессии с гауссовыми априорными значениями дает нам L2 или гребневую регрессию.

Обратите внимание, что λ=σ²/τ² в приведенных выше уравнениях. Кроме того, помните, что σ предполагается постоянным в линейной регрессии, и мы можем выбрать τ в качестве нашего априора. Мы можем настроить желаемую степень регуляризации, изменив λ.

Регуляризация L1 и априорный лапласиан

Функция распределения вероятностей для распределения Лапласа задается следующим уравнением:

Учитывая нулевое среднее лапласовское априорное значение для всех коэффициентов, как мы это делали в предыдущем разделе, мы имеем:

Опять же, мы видим, что MAP коэффициентов линейной регрессии с лапласовскими априорными значениями дает нам L1 или регрессию Лассо.

Посмотрите на приведенный выше график для распределения Гаусса и Лапласа. Как мы обсуждали ранее, регрессию L1 или LASSO можно рассматривать как наложение априорных значений Лапласа на веса. Поскольку распределение Лапласа более сосредоточено вокруг нуля, наш вес, скорее всего, будет равен нулю в случае регуляризации L1 или LASSO.

Сводка

  • L1 или LASSO (оператор наименьшего абсолютного сокращения и выбора) Регуляризация поддерживает одновременно выбор переменных и регуляризацию.
  • Обе проблемы регуляризации L1 и L2 могут быть решены с использованием лагранжевого метода оптимизации с ограничениями.
  • Штраф за лассо заставит некоторые коэффициенты быстро обнулиться. Это означает, что переменные удаляются из модели, отсюда и разреженность.
  • Гребневая регрессия более или менее сжимает коэффициенты, чтобы они стали меньше. Это не обязательно приводит к нулевым коэффициентам и удалению переменных.

Ссылка

  1. Интуиция по регуляризации L1 и L2
  2. Что такое регуляризация простым английским языком?
  3. Регуляризация L1 и L2
  4. Разница между регуляризацией L1 и L2
  5. Почему лассо обеспечивает выбор переменных?
  6. Хасти, Тибширани и Фридман, Элементы статистического обучения
  7. Машинное обучение: вероятностная перспектива, Кевин П. Мерфи
  8. Почему гребенчатая регрессия не уменьшит некоторые коэффициенты до нуля, как лассо?
  9. Почему регуляризация L2 эквивалентна гауссовской априорной схеме?
  10. Вероятностная интерпретация регуляризации
  11. Переоснащение — Википедия