Полное руководство по всем регрессиям, Ridge, Lasso и Elastic Net Regression.

Линейная регрессия

Линейная регрессия — это самый простой и наиболее широко используемый статистический метод прогнозного моделирования. По сути, это дает нам уравнение, в котором наши функции являются независимыми переменными, от которых зависит наша целевая переменная.

Здесь Y — зависимая переменная, X — независимая переменная, а тета — коэффициенты. Коэффициенты — это весовые коэффициенты, присвоенные каждой из переменных. Более высокая зависимость будет иметь более высокие веса.

Рассмотрим только одну независимую переменную. Тогда уравнение будет

Это уравнение называется простым уравнением линейной регрессии, которое представляет собой прямую линию, где theta0 — точка пересечения, theta1 — наклон линии. Пример. Ниже показана линия регрессии (линия наилучшего соответствия) графика продаж и MRP.

Линия наилучшего соответствия

Линия наилучшего соответствия — это график, показывающий общее направление, которому, по-видимому, следует группа точек. Основная цель линии наилучшего соответствия заключается в том, чтобы наше прогнозируемое значение было ближе к фактическому значению. Линия наилучшего соответствия имеет тенденцию минимизировать разницу между прогнозируемыми значениями и фактическими значениями, т.е. ошибкой (или остатком).

Остатки представляют собой вертикальную линию, продолжающуюся от остаточной линии до точек данных.

Наша главная задача – найти эти ошибки и свести их к минимуму. Мы можем измерить остаток тремя способами.

  1. Сумма остатков — (∑(Y — h(X))): Это может привести к устранению положительных и отрицательных ошибок, поэтому мы используем абсолютную
  2. Сумма абсолютного значения остатков — (∑|Y-h(X)|)
  3. Сумма квадратов остатков — ( ∑ (Y-h(X))^2) — Чаще всего используется

Поэтому ошибка Sum of Squares(SS) задается как:

Где h(x), т.е. прогнозируемые значения = (Θ1*x +Θ0), y — фактическое значение, а и m — количество строк (данных)

Функция затрат/убытков: это мера погрешности модели.

Это похоже на ошибку суммы квадратов, поэтому ее также называют среднеквадратичной ошибкой.

Для каждой модели нам нужно минимизировать функцию стоимости. Это делается с помощью алгоритма градиентного спуска.

Алгоритм градиентного спуска

Градиентный спуск используется для минимизации функции ошибки путем итеративного перемещения в направлении наискорейшего спуска (т. е. отрицательного спуска). Используется для обновления параметра наших моделей

Предположим, мы хотим найти наилучшие параметры (θ1) и (θ2) для нашего алгоритма линейной регрессии. GD работает, итеративно обновляя θ и находя точки, в которых функция стоимости минимальна. Для подробных заметок о GD посетите здесь.

Оценка вашей модели — R-квадрат

R-квадрат — определяет, насколько общая вариация Y (зависимая переменная) объясняется вариацией X (независимая переменная).

Значение всегда находится в диапазоне от 0 до 1, где 0 означает, что модель не объясняет изменчивость Y, а 1 означает полную изменчивость целевой изменчивости.

Недостаток R-квадрата

Недостаток скорректированного R-квадрата заключается в том, что если мы используем новую зависимую переменную в учащемся, R-квадрат увеличивается или остается постоянным. Это не говорит о том, увеличиваем ли мы сложность или делаем ее более точной.

Скорректированный R-квадрат

Скорректированный R-квадрат — это модифицированная форма R-квадрата e, которая была скорректирована с учетом количества предикторов в модели. Он включает в себя степень свободы модели.

Где
R2 = площадь выборки R
p = количество предикторов
N = общий размер выборки

R Square — это базовая матрица, которая говорит вам о том, какая дисперсия объясняется моделью. Что происходит в многомерной линейной регрессии, так это то, что если вы продолжаете добавлять новые переменные, значение R-квадрата всегда будет увеличиваться независимо от значимости переменной. Скорректированный квадрат R вычисляет квадрат R только из тех переменных, добавление которых в модель является значимым. Таким образом, при выполнении многомерной линейной регрессии мы должны смотреть на скорректированный R-квадрат вместо R-квадрата.

Выбор правильных параметров для вашей модели

Для данных высокой размерности было бы неэффективно использовать все столбцы в регрессионной модели, поскольку некоторые из них могут содержать избыточную информацию.

Существует два основных способа выбора переменных:

  1. Прямой выбор —прямой выбор начинается с наиболее важного предиктора в модели и добавляет переменную для каждого шага.
  2. Обратное исключение —обратное исключение начинается со всех предикторов в модели и удаляет наименее значимую переменную для каждого шага.

В качестве критерия выбора можно указать любой статистический показатель, например R-квадрат, t-stat и т. д.

Статистические методы поиска лучшей модели регрессии

  1. Скорректированный R-квадрат и прогнозируемый R-квадрат. Как правило, вы выбираете модели с более высокими скорректированными и прогнозируемыми значениями R-квадрата.
  2. P-значения для предикторов. В регрессии низкие p-значения указывают на статистически значимые термины. Путем обратного исключения можно систематически удалять признаки с самым высоким p-значением один за другим, пока не останутся только значимые предикторы.

Интерпретация графиков регрессии

Графики регрессии представляют собой остаточные и подогнанные графики.

Гетероскедастичность. наличие непостоянного члена в члене ошибки приводит к гетероскедастичности. Воронкообразная форма на графике указывает на гетероскедастичность.

Причина включения гетероскедастичности может быть связана с наличием выбросов или экстремальных значений кредитного плеча. Когда это происходит, доверительный интервал для прогноза вне выборки имеет тенденцию быть нереалистично широким или узким.

Полиномиальная регрессия

Полиномиальная регрессия — это еще один тип регрессии, в котором максимальная мощность независимой переменной больше 1. Следовательно, линия наилучшего соответствия — это не прямая линия, а кривая.

Квадратичная регрессия или регрессия с полиномом второго порядка определяется следующим уравнением:

Y =Θ1 +Θ2*x +Θ3*x2

Ниже показана полиномиальная регрессия с разной степенью = 3 и степенью = 20.

Мы видим, что для полинома более высокой степени линия наилучшего соответствия имеет тенденцию сходиться ко всем точкам. Это означает, что наша модель хорошо подходит для наших обучающих данных, но, как правило, плохо подходит для тестовых данных. Это называется подгонкой. В этом случае наша модель имеет высокую дисперсию и низкое смещение.

Точно так же у нас есть другая проблема, называемая недообучение. Она возникает, когда наша модель не соответствует обучающим данным и не обобщает новые данные. В этом случае у нас есть модель с высоким смещением и низкой дисперсией.

Смещение и дисперсия в моделях регрессии

Смещение. Смещение — это упрощающие предположения, сделанные моделью для облегчения изучения целевой функции.

Дисперсия — Дисперсия — это сумма, на которую изменится оценка целевой функции, если использовались разные обучающие данные.

Может быть 4 смещения/дисперсии в модели регрессии.

  1. Очень точная модель — поэтому ошибка нашей модели будет низкой, что означает низкое смещение и низкую дисперсию, как показано на первом рисунке.
  2. По мере увеличения дисперсии увеличивается разброс наших точек данных, что приводит к менее точному прогнозу.
  3. По мере увеличения смещения ошибка между нашим предсказанным значением и наблюдаемыми значениями увеличивается. Высокое смещение предполагает сильное допущение или сильные ограничения модели.

Недостаточная подгонка —недостаточная подгонка модели плохо работает на обучающих данных. Это происходит потому, что модель не может зафиксировать взаимосвязь между входным примером и целевой переменной.

Чтобы преодолеть недостаточное соответствие или высокое смещение, мы можем в основном добавить новые параметры в нашу модель, чтобы увеличить сложность модели и, таким образом, уменьшить высокое смещение.

Переоснащение.По мере того, как мы добавляем в нашу модель все больше и больше параметров, ее сложность возрастает, что приводит к увеличению дисперсии и уменьшению систематической ошибки.

Чтобы преодолеть переоснащение, есть два способа:

  1. Уменьшить сложность модели
  2. Регуляризация

При регуляризации обычно мы сохраняем то же количество признаков, но уменьшаем величину коэффициентов. Для этого можно использовать график коэффициентов всех этих переменных.

Выше показан коэфф. vs график переменных, мы видим, что Outlet_Identifier_OUT027 и Outlet_Type_Supermarket_Type3 значительно выше, чем у остальных коэфф. Поэтому наша зависимая переменная будет больше зависеть от этих переменных.

У нас есть различные типы методов регрессии, которые используют регуляризацию для решения этой проблемы. Итак, давайте обсудим их.

Ридж-регрессия

Ридж-регрессия — это L1 или потеря 1 и L2 или потеря 2

Ключевое различие между ними заключается в сроке наказания.

Регрессия гребня добавляет «квадратную величину» коэффициента в качестве штрафного члена к функции потерь. Здесь выделенная часть представляет элемент регуляризации L2.

Цель = RSS + α * (сумма квадратов коэффициентов)

Здесь α (альфа) — это параметр, который уравновешивает степень внимания, придаваемого минимизации RSS, по сравнению с минимизацией суммы квадратов коэффициентов. α может принимать различные значения. Здесь мы определяем Lambda (или α), которая является штрафным коэффициентом:

Когда,

  1. α = 0 — цель становится такой же, как и при простой линейной регрессии. Мы получим те же коэффициенты, что и простая линейная регрессия.

2. α = ∞:Коэффициенты будут равны нулю. Почему? Из-за бесконечного веса квадрата коэффициентов все, что меньше нуля, сделает цель бесконечной.

3. 0 ‹ α ‹ ∞:Величина α будет определять вес, придаваемый различным частям цели. Коэффициенты будут где-то между 0 и единицами для простой линейной регрессии.

На приведенных выше графиках для линии наилучшего соответствия мы видим, что по мере увеличения значенияα, сложность модели снижается. Чем выше α, тем больше штраф. Хотя более высокие значения α уменьшают переоснащение, значительно более высокие значения также могут вызвать недостаточное соответствие (например, α= 5 ).

В лассо величина коэффициентов уменьшается до небольшой величины, но они никогда не равны нулю. Он уменьшает параметры, поэтому в основном используется для предотвращения мультиколлинеарности. Это снижает сложность модели за счет уменьшения коэффициента.

Лассо-регрессия

Полная форма LASSO: Оператор выбора наименьшей абсолютной усадки . Это очень похоже на гребневую регрессию. LASSO добавляет «абсолютное значение величины» коэффициента в качестве штрафного члена к функции потерь. Сюда,

Традиционные методы, такие как перекрестная проверка, пошаговая регрессия для обработки переобучения и выбора функций, хорошо работают с небольшим набором функций, но Регулирование, подобное описанным выше методам, является отличной альтернативой, когда мы имеем дело с большим набором функций. набор функций.

Эластичная чистая регрессия

Он сочетает в себе возможности регуляризации L1 и L2. Эластичная регрессия обычно хорошо работает, когда у нас есть большой набор данных. Учтите, что у нас есть набор коррелированных независимых переменных в наборе данных, тогда эластичная сеть просто сформирует группу, состоящую из этих коррелированных переменных. Теперь, если какая-либо из переменных этой группы является сильным предиктором (что означает сильную связь с зависимой переменной), тогда мы включим всю группу в построение модели, потому что исключение других переменных (например, то, что мы сделали в лассо) может привести к потере некоторой информации с точки зрения возможности интерпретации, что приведет к плохой работе модели.

Уравнение выглядит следующим образом:

где α — параметр смешивания гребня (α = 0) и лассо (α = 1) и λ.

α= a + b

λ= a / (a+b)

здесь a и b — веса, присвоенные терминам L1 и L2 соответственно и установленные таким образом, чтобы они контролировали компромисс между L1 и L2.

a * (термин L1) + b* (термин L2)

Программно мы используем l1_ratio как параметр функции, которая сама определяет тип регрессии (лассо, гребень, эластичная сеть). Пусть альфа (или a+b) = 1, а теперь рассмотрим следующие случаи:

  • Если l1_ratio = 1, поэтому, если мы посмотрим на формулу l1_ratio, мы увидим, что l1_ratio может быть равно 1, только если a = 1, что подразумевает b = 0. Следовательно, это будет лассо-штраф.
  • Точно так же, если l1_ratio = 0, подразумевается a=0. Тогда наказанием будет штраф за гребень.
  • Для l1_ratio между 0 и 1 штрафом является комбинация ребра и лассо.

На этом тема линейной регрессии и методов регуляризации заканчивается. Если вам понравилась эта статья, хлопайте в ладоши и подписывайтесь на me, чтобы не пропустить другие подобные материалы.

Источники:





https://towardsdatascience.com/l1-and-l2-regularization-methods-ce25e7fc831c

https://www.quora.com/Whats-the-difference-between-overfitting-and-underfitting