Основная цель линейной регрессии — найти наиболее подходящую линию, описывающую линейную связь между зависимой переменной (целевой переменной) и независимыми переменными (признаками).

Простая линейная регрессия

y = β0 + β1x

Гдеy — зависимая переменная, x — независимая переменная, β0 — точка пересечения иβ1 — наклон (коэффициент). Отрезок представляет собой значение, когда независимая переменная равна нулю, а наклон представляет собой единичное изменение независимой переменной на величину изменения зависимой переменной.

Множественная линейная регрессия

y = β0 + β1x1 + β2x2 + … + βnxn

Гдеy — зависимая переменная, x1,x2,x3,.. — независимая переменная, β0, — точка пересечения и > β1,β2,β3,.. — коэффициент. То же, что и простая линейная регрессия, но интерпретация полилинейной регрессии немного сложнее.

Коэффициенты (β1,β2,..) представляют предполагаемый эффект изменения соответствующей независимой переменной на одну единицу и степень изменения зависимой переменной при неизменности всех остальных независимых переменных. Положительные коэффициенты указывают на положительную связь между независимой переменной и зависимой переменной, а отрицательные коэффициенты указывают на отрицательную связь.

Интерпретация, например:

премия = 250,59–10,35 * х (пробег)

Если пробег равен нулю, то средняя надбавка составляет 250,59, что представляет собой надбавку за велосипед сразу после его изготовления.

при изменении пробега на одну единицу сумма премии уменьшится на 10,35. это относится к уменьшению премии из-за пробега.

Наиболее подходящая строка:

Линия наилучшего соответствия дает минимизацию суммы квадратов ошибок. Другими словами, наименьшая ошибка — наиболее подходящая линия.

Показатель вариации: SST = SSE + SSR

Сумма квадратов итога (SST):

  • SST = Σ(yi — среднее (y))2

Сумма квадратов различий между отдельными точками данных (yi) и средним значением переменной ответа (y).

Сумма квадратов регрессии (SSR): → Объяснение отклонений

  • SSR = Σ(ŷi — среднее (y))2

Сумма квадратов различий между прогнозируемыми точками данных (ŷi) и средним значением переменной ответа (y).

Сумма квадратов ошибок (SSE): → необъяснимое отклонение

  • SSE = Σ(yi — ŷi)2

Сумма квадратов различий между наблюдаемыми точками данных (yi) и прогнозируемыми точками данных (ŷi).

Допущения линейной регрессии:

Зависимая переменная должна быть числовой.

Взаимосвязь между независимыми и зависимыми переменными должна быть линейной. Если связь является нелинейной, может потребоваться преобразование переменных.

  • Глядя на графики рассеяния или корреляционную матрицу . мы можем прийти к выводу о линейности.

Не должно быть мультиколлинеарности. Независимые переменные не должны сильно коррелировать друг с другом. Это может привести к нестабильным и ненадежным коэффициентам, а также к трудностям в интерпретации результатов.

  • Глядя на матрицу корреляции, если две или более независимых переменных имеют высокий коэффициент корреляции (например, близкий к 1 или -1), это свидетельствует о мультиколлинеарности. (или)
  • Коэффициент инфляции дисперсии (VIF).
    Значение больше 5 или 10 указывает на высокую мультиколлинеарность. Это зависит от бизнес-сценария.
  • В методе наименьших квадратов (OLS), глядя на Cond No.
  • если конд. NO ‹ 100 → Низкая мультиколлинеарность
    , если Cond. NO ‹ 1000 → Средняя мультиколлинеарность
    , если Cond. NO ›1000 → Высокая мультиколлинеарность

не должно быть автокорреляции между остатками.

Лучшее например. для автокорреляции цена акций и в основном данные временного ряда автокоррелируются.

Тест Дарбина-Ватсона используется для проверки автокорреляции между остатками

  • Дурбин-Ватсон около 2 → нет автокорреляции
  • Дурбин-Ватсон от 0 до 2 → положительная автокорреляция
  • Дурбин-Ватсон от 2 до 4 → отрицательная автокорреляция
  • Обычно от 1,5 до 2,5 будет нормально.

дисперсия ошибок должна быть постоянной, а затем гомоскедастичность на всех уровнях независимых переменных. Если дисперсия непостоянна, это может привести к смещенным оценкам параметров и недействительным стандартным ошибкам.

  • Диаграмма рассеяния остатков по сравнению с предсказанными значениями может визуально представлять постоянную дисперсию. Если дисперсия остатков постоянна, то точки на диаграмме рассеяния должны быть распределены случайным образом и образовывать облачкоподобный узор вокруг горизонтальной линии. Если дисперсия остатков непостоянна, то точки на диаграмме рассеяния будут иметь форму воронки.
  • Бреуш-Паган — это один из тестов для обнаружения гетероскедастичности в остатках. (или)
  • Тест Гольдфельда-Квандта – это статистический тест гомоскедастичности.

Остатки должны быть нормально распределены.

  • Тест Жака-Бера используется для проверки нормальности остатков. Здесь p-значение теста меньше 0,05, что означает, что остатки не распределены нормально.

R-квадрат (R2)

R-квадрат также известен как коэффициент детерминации. Это мера доли общей дисперсии зависимой переменной, которая объясняется независимыми переменными в модели. Диапазон будет от 0 до 1. Более высокое значение R-квадрата указывает на то, что независимые переменные лучше предсказывают зависимую переменную, в то время как более низкое значение R-квадрата предполагает, что могут быть важные переменные, которые не включены в модель, или что взаимосвязь между переменными может не учитываться. быть линейным.

R2 = 1 — (SSE/SST) (или)

R2 = SSR/SST → Объясненная вариация/Общая вариация

например,
R2 = 0,68
мы можем сказать, что независимые переменные объясняют 68% вариации зависимой переменной.

Квадрат корреляции между переменной отклика (y) и независимой переменной (x) известен как R-квадрат. . R-квадрат увеличивается с увеличением количества независимых переменных. Добавление дополнительных независимых переменных в модель обычно увеличивает значение R-квадрата, даже если новые переменные бесполезны. предсказатели. Это может привести к переоснащению.

Скорректированный R-квадрат (adj-R2)

Скорректированный R-квадрат (adj-R2) — это модифицированная версия R-квадрата, в которой учитывается количество независимых переменных в модели. Он принимает во внимание компромисс между точностью модели и сложностью модели. Скорректированный R-квадрат является лучшей мерой соответствия модели при сравнении моделей с разным количеством независимых переменных.

В худшем случае R2 может быть отрицательным.

прил-R2 = 1 — ((1-R2) * (n-1)/(n-k-1))

где:

  • R2 — это обычный R-квадрат.
  • n - размер выборки
  • k - количество независимых переменных в модели

По мере увеличения K (число независимых переменных) значение (n-k-1) уменьшается.

Разница между R2 и adj-R2

R2 продолжает увеличиваться независимо от того, являются ли функции значимыми или нет, но adj-R2 будет уменьшаться, если функции не являются значимыми. В общем, скорректированный R-квадрат является лучшей мерой соответствия модели при сравнении моделей с разным количеством независимых переменных.

Метрики оценки или функции потерь для регрессии

Цель линейной регрессии — найти линию, которая минимизирует ошибку прогноза всех точек данных.

Среднеквадратическая ошибка (MSE)

  • MSE — это среднее квадратов разностей между фактическими и прогнозируемыми значениями.

→ Среднеквадратическая ошибка (RMSE)

  • RMSE — это квадратный корень из MSE.

→ Средняя абсолютная ошибка (MAE)

  • MAE — это среднее абсолютных различий между фактическими и прогнозируемыми значениями.

→ Средняя абсолютная ошибка в процентах (MAPE)

MAPE — это среднее абсолютных различий между фактическими и прогнозируемыми значениями, выраженное в процентах от фактического значения.

Каждая из этих мер имеет свои сильные и слабые стороны, и выбор того, какую меру использовать, зависит от конкретной проблемы и целей анализа. Например, MSE и RMSE наказывают большие ошибки сильнее, чем мелкие, а MAE и MAPE не обладают этим свойством. С другой стороны, MAE и MAPE более устойчивы к выбросам и экстремальным значениям, чем MSE и RMSE.

Регуляризация

Добавьте штрафной член к функции стоимости, чтобы избежать переобучения, не допуская, чтобы коэффициенты становились слишком большими

Функция затрат = функция затрат + штраф

где Штраф λ * ∑βi

где λ — гиперпараметр, заданный пользователем. Это контролирует баланс между соответствием модели данным и сложностью модели, при этом большие значения λ приводят к большей регуляризации и меньшим коэффициентам.

еслиλ=0то нет разницы между моделью с регуляризацией и без регуляризации.

Лассо регрессия

Регрессия Лассо также известна как регуляризация L1.

Функция стоимости = Σ(yi — ŷi)2 + λ * ∑|βi|

Регуляризация L1 добавляет абсолютные значения коэффициентов в качестве регуляризации. Таким образом, абсолютные значения коэффициентов будут уменьшены, и многие из них будут стремиться к нулю. Лассо также можно использовать для метода выбора признаков.

Регрессия хребта

Гребневая регрессия также известна как регуляризация L2.

Функция стоимости = Σ(yi — ŷi)2 + λ * ∑βi²

Регуляризация L2 добавляет квадрат коэффициентов в качестве регуляризации. Таким образом, значения коэффициентов будут уменьшены и будут близки к нулю, но не будут стремиться к нулю.

Регрессия ElasticNet

ElasticNet представляет собой комбинацию Ridge и Lasso. где включены штрафы как по абсолютному значению, так и по квадрату штрафа, которые регулируются другим коэффициентом l1_ratio

Функция стоимости = Функция стоимости + α * (1 — β) * ∑|βi| + β * λ * ∑βi²

α — гиперпараметр, определяющий баланс между регуляризацией L1 и L2. β — это значение от 0 до 1, где 0 указывает на чистую регуляризацию Риджа, а 1 указывает на чистую регуляризацию Лассо.

Преимущество Elastic Net перед одним только Lasso или Ridge заключается в том, что он позволяет более гибко выбирать между штрафами L1 и L2. На практике он часто используется, когда в данных есть несколько коррелированных признаков, поскольку он может эффективно выполнять выбор признаков и одновременно предотвращать переоснащение.

Когда какую регуляризацию использовать?

  • Если есть много интерпретаций, предпочтительнее представить регрессию гребня.
  • Если есть наименее значимые переменные, то предпочтительнее регрессия Лассо.
  • Если данные содержат слишком много переменных, невозможно определить, использовать ли гребень или лассо, тогда предпочтительнее использовать регрессию ElasitNet.

Преимущества линейной регрессии:

  1. Это просто и легко реализовать.
  2. Хорошо работает, когда набор данных линейно разделим.
  3. Это быстрый и эффективный метод подбора линейной модели к данным.
  4. Переобучение можно уменьшить путем регуляризации.

Недостатки линейной регрессии:

  1. Предполагается линейная регрессия, которая не всегда может быть верной в реальных данных.
  2. Чувствителен к выбросам и влиятельным точкам.
  3. Нужно сделать много методов предварительной обработки.
  4. Линейная регрессия предполагает, что все переменные являются непрерывными, и она может не обрабатывать категориальные переменные, а также другие статистические методы. Это может привести к необъективным результатам, если категориальные переменные не обрабатываются должным образом.
  5. Нельзя использовать для моделирования нелинейных отношений между независимыми и зависимыми переменными без использования дополнительных методов, таких как полиномиальная регрессия или добавление условий взаимодействия.