Линейная регрессия — это контролируемый алгоритм машинного обучения. Это один из старейших, а также один из наиболее изученных алгоритмов. Настоящей рабочей лошадкой мира регрессии является линейная регрессия, широко известная как метод наименьших квадратов (OLS) и линейный метод наименьших квадратов.

Основная цель — выбрать строку, которая лучше всего соответствует данным. Линия наилучшего соответствия — это линия с наименьшей общей ошибкой прогнозирования (по всем точкам данных). Разрыв между точкой и линией регрессии называется ошибкой.

Статистический метод регрессии используется для определения связи между двумя или более переменными. В результате линейная регрессия предполагает, что переменные имеют линейную связь. Задача регрессии делится на два типа в зависимости от количества входных переменных Простая линейная регрессия и Множественная линейная регрессия. Здесь я буду обсуждать простую линейную регрессию. Так что давайте получить представление об этом.

Простая линейная регрессия

Для нахождения связи между двумя непрерывными переменными полезна простая линейная регрессия. Одна является предиктором или независимой переменной, а другая — респондентом или зависимой переменной. Он ищет статистические, а не детерминированные корреляции. Если одна переменная может быть правильно представлена ​​другой, связь между двумя переменными называется детерминированной. Например, можно правильно оценить температуру по Фаренгейту, используя температуру в градусах Цельсия. При выявлении связи между двумя переменными статистические отношения неверны. Например, рассмотрим связь между ростом и весом.

bo — точка пересечения, b1 — коэффициент или наклон, x — независимая переменная, y — зависимая переменная в уравнении простой линейной регрессии.

Коэффициенты b0 и b1 из приведенного выше уравнения должны быть выбраны таким образом, чтобы ошибка была минимальной. Если для оценки модели используется сумма квадратов ошибок, цель состоит в том, чтобы найти линию, которая максимально минимизирует ошибку.

Показатели оценки модели для регрессии

Это несколько показателей оценки

R-Square (R²)
Это полезная метрика для оценки того, насколько хорошо модель соответствует зависимым переменным. Однако при этом не учитывается проблема переобучения. Поскольку модель чрезмерно сложна, если ваша регрессионная модель содержит множество независимых переменных, она может очень хорошо подходить для данных обучения, но плохо работать для данных тестирования. Скорректированный квадрат R был создан, чтобы наказать добавление дополнительных независимых переменных в модель и изменить меру, чтобы избежать проблем с переоснащением.

Это число может быть любым от 0 до 1. Значение «1» означает, что предиктор полностью учитывает все вариации Y. Значение «0» означает, что предиктор «x» не несет ответственности за какое-либо изменение «y».

Среднеквадратическая ошибка (MSE)

MSE вычисляется путем деления количества точек данных на сумму квадратов ошибки прогнозирования, которая представляет собой реальный результат минус ожидаемый результат. Он предоставляет абсолютное число, показывающее, насколько ваши прогнозируемые результаты отличаются от фактического значения.

Среднеквадратическая ошибка (RMSE)

Квадратный корень MSE — это среднеквадратическая ошибка (RMSE). Он используется чаще, чем MSE, поскольку число MSE иногда может быть слишком большим, чтобы его можно было легко сравнить. Кроме того, MSE рассчитывается с использованием квадрата ошибки, поэтому извлечение квадратного корня возвращает его к тому же уровню ошибки прогнозирования и упрощает понимание.

Средняя абсолютная ошибка (MAE)

Средняя абсолютная ошибка (MAE) идентична среднеквадратической ошибке (MSE). MAE, с другой стороны, берет общее абсолютное значение ошибки, а не сумму квадратов ошибки, как это делает MSE.

Лучшие показатели для оценки модели

Поскольку вы можете описать число как процент изменчивости выходных данных, R Square — лучший способ объяснить модель другим. Для анализа производительности различных регрессионных моделей лучше рассмотреть MSE, RMSE или MAE.

Предположения линейной регрессии

  1. Линейность: зависимая переменная Y должна иметь линейную связь с независимыми переменными. Диаграмма рассеяния между обеими переменными может быть использована для проверки этого утверждения.
  2. Гомоскедастичность. Остаточная дисперсия должна быть одинаковой для каждого значения x. Уровень ошибки в остатках должен быть сопоставимым на каждом этапе линейной модели при множественной линейной регрессии. Диаграммы рассеяния — полезный метод, чтобы увидеть, являются ли ваши данные гомоскедастичными.
  3. Мультиколлинеарность. В данных не должно быть мультиколлинеарности, что происходит, когда независимые переменные значительно связаны друг с другом. Если это произойдет, определение точной переменной, влияющей на дисперсию зависимой/целевой переменной, будет затруднено.
  4. Нормальность: остатки должны быть правильно распределены. В соответствии с этим предположением функция плотности вероятности остаточных значений нормально распределяется для каждого независимого значения.

Преимущества

  1. Простая реализация
  2. Он практически полностью подходит для линейно разделимых наборов данных и часто используется для определения характера связи между переменными.
  3. Переобучение можно уменьшить с помощью регуляризованной линейной регрессии.

Ограничение

  1. Склонен к выбросам
  2. Предполагается, что данные независимы
  3. Склонен к недообучению

Случаи использования

  1. В медицинских исследованиях, чтобы понять взаимосвязь между дозировкой лекарств и артериальным давлением пациентов.
  2. В сельском хозяйстве линейная регрессия обычно используется для оценки влияния удобрений и воды на урожайность.
  3. В бизнесе найти взаимосвязь между расходами на рекламу и доходами.
  4. В спорте для измерения влияния различных режимов тренировок на результаты игроков.