Линейная регрессия — это фундаментальный и широко используемый алгоритм в области контролируемого машинного обучения. Это статистический метод, который играет фундаментальную роль в прогнозном моделировании и анализе данных. Он предлагает средства для изучения и понимания взаимосвязей между переменными, позволяя нам делать прогнозы на основе наблюдаемых данных. Прогнозируемые данные состоят из непрерывных числовых значений, таких как цены на жилье, результаты экзаменов, урожайность.

Оглавление:

1. Введение
— Линейная регрессия как фундаментальный алгоритм машинного обучения с учителем
— Назначение линейной регрессии и ее приложений

2. Типы линейной регрессии

3. Цель линейной регрессии
— найти наиболее подходящую линию с использованием коэффициентов.

4. Поиск линии наилучшего соответствия
— Функция стоимости в линейной регрессии
— Градиентный спуск как метод оптимизации

5.Нормальное уравнение
— Решение в закрытой форме для нахождения оптимальных коэффициентов
— Отличия от градиентного спуска
— Ограничения нормального уравнения

6. Оценка модели линейной регрессии

7. Предположения о линейной регрессии
— предположения, методы тестирования и приемы их решения.

8. Применения линейной регрессии
— примеры и проекты, связанные с каждым приложением.

Что делает линейная регрессия?

Линейная регрессия направлена ​​на построение математического уравнения, которое устанавливает связь между зависимой переменной и одной или несколькими независимыми переменными, предполагая линейную связь на основе доступных данных. Термин «линейный» означает предположение, что изменения зависимой переменной прямо пропорциональны изменениям независимой переменной (переменных).

Типы линейной регрессии

Линейная регрессия включаеттри различных типа, классифицируемых на основе количества задействованных входных или независимых переменных и выходных или зависимых переменных:

Простая линейная регрессия. Когда для прогнозирования значения зависимой переменной используется одна независимая переменная, алгоритм линейной регрессии называется простой линейной регрессией.

Уравнение простой линейной регрессии:

Y = β₀ + β₁X

  • X: Входная или независимая переменная, которая используется для прогнозирования выходной переменной.
  • Y: Выходная или зависимая переменная, которая прогнозируется на основе входных переменных.
  • β₀: член пересечения или смещения, представляющий значение Y, когда независимая переменная равна нулю.
  • β₁: Наклон или вес объекта, связанный с первой независимой переменной, указывающий влияние этой переменной на зависимую переменную.

Множественная линейная регрессия. Когда несколько независимых переменных используются для прогнозирования значения числовой зависимой переменной, алгоритм линейной регрессии называется множественной линейной регрессией.

Уравнение множественной линейной регрессии:

Y = β₀ + β₁X₁ + β₂X₂ + β₃X₃ + … + βₚXₚ

  • Y представляет собой зависимую переменную.
  • X₁, X₂, X₃, …, Xₚ представляют собой независимые переменные (также известные как предикторы или признаки).
  • β₀ представляет точку пересечения y (значение Y, когда все независимые переменные равны нулю).
  • β₁, β₂, β₃, …, βₚ представляют собой коэффициенты, связанные с каждой независимой переменной.

Многомерная линейная регрессия. Когда несколько независимых переменных используются для прогнозирования значений нескольких числовых зависимых переменных, алгоритм линейной регрессии называется многомерной линейной регрессией.

В статье использованы следующие обозначения:

Цель линейной регрессии

Основная цель линейной регрессии — найти наилучшую линию, которая представляет связь между независимой переменной (переменными) и зависимой переменной. Эта линия наилучшего соответствия определяется путем оценки β₀, β₁, β₂, β₃, …, βₚ, которые минимизируют разницу между наблюдаемыми значениями зависимой переменной и прогнозируемыми значениями на основе уравнения регрессии.

Линия наилучшего соответствия получается путем минимизации остаточной суммы квадратов (RSS).

Линия линейной регрессии

Линейная линия, показывающая взаимосвязь между зависимой и независимой переменными, называется линией регрессии. Линия регрессии может отображать два типа отношений:

Положительная линейная зависимость: если зависимая переменная увеличивается по мере увеличения независимой переменной, такая связь называется положительной линейной зависимостью.

Отрицательная линейная зависимость: если зависимая переменная уменьшается по мере увеличения независимой переменной, такая связь называется отрицательной линейной зависимостью.

Поиск наиболее подходящей линии

Приводит нас к нахождению оптимальных значений коэффициентов независимых переменных. Это можно сделать, как показано ниже:

Функция стоимости

Функция стоимости в линейной регрессии играет решающую роль в определении оптимальных значений коэффициентов независимых переменных, в результате чего получается линия наилучшего соответствия для заданных точек данных.

В линейной регрессии в качестве функции стоимости обычно используется среднеквадратичная ошибка (MSE). Он вычисляет среднее квадратов различий между прогнозируемыми и фактическими значениями. Используя функцию стоимости, мы можем настроить коэффициенты независимых переменных так, чтобы MSE достигла своего минимального значения.

Учитывая простое линейное уравнение:

Процесс включает в себя итеративное обновление коэффициентов с использованием таких методов, как градиентный спуск. Этот метод оптимизации помогает найти значения, минимизирующие функцию стоимости. Перебирая точки данных и корректируя коэффициенты, мы постепенно приближаемся к минимальному значению MSE.

Остатки: разница между фактическим значением и прогнозируемым значением. Функция стоимости и остатки прямо пропорциональны. Если точки разнесены от линии регрессии, функция стоимости будет выше, но если точки расположены близко к линии регрессии, функция стоимости будет ниже.

Градиентный спуск

Градиентный спуск — это метод, используемый для поиска наиболее подходящей линии в линейной регрессии путем итеративной настройки параметров модели. Проще говоря, это все равно, что делать маленькие шаги вниз, чтобы достичь самой низкой точки.

Вот как работает градиентный спуск для линейной регрессии:

1. Начните со случайных значений. Сначала мы присваиваем случайные значения коэффициентам (наклону и пересечению) линии регрессии.

2. Вычисление ошибки: мы измеряем ошибку или разницу между прогнозируемыми значениями и фактическими значениями зависимой переменной для всех точек данных.

3. Обновление коэффициентов. Мы корректируем коэффициенты, перемещая их в направлении, уменьшающем ошибку. Размер корректировки определяется скоростью обучения, которая контролирует размер шага, предпринимаемого на каждой итерации.

4. Повторите шаги 2 и 3: мы продолжаем пересчитывать ошибку и обновлять коэффициенты, пока не достигнем точки, в которой дальнейшие корректировки не уменьшат ошибку значительно.

Многократно вычисляя ошибку и корректируя коэффициенты, градиентный спуск постепенно улучшает соответствие линии регрессии данным. Цель состоит в том, чтобы найти значения коэффициентов, которые минимизируют ошибку, в результате чего линия, которая лучше всего представляет отношение между независимыми и зависимыми переменными.

Думайте об этом, как о спуске с холма, пытаясь найти самую низкую точку. На каждом шагу вы оцениваете крутизну склона и делаете небольшой шаг в сторону спуска. В конце концов вы достигаете подножия холма, который представляет собой линию наилучшего соответствия, минимизирующую ошибку в модели линейной регрессии.

Скорость обучения (α): альфа-скорость обучения служит параметром настройки, который управляет размером шага, с которым алгоритм машинного обучения настраивает свои внутренние параметры во время обучения. Он определяет, насколько быстро или медленно модель учится на доступных данных. Нахождение правильного баланса имеет решающее значение, поскольку слишком высокая или слишком низкая скорость обучения может помешать модели сходиться к оптимальному решению.

Градиентный спуск — это итеративный алгоритм оптимизации, который эффективно находит оптимальные коэффициенты для модели линейной регрессии, позволяя нам делать точные прогнозы и понимать взаимосвязь между переменными.

  • Требуется несколько итераций
  • Нужно выбрать α (скорость обучения)
  • Хорошо работает даже при большом наборе данных
  • Поддерживает постепенное обучение

Нормальное уравнение

Альтернатива градиентному спуску, работает только для линейной регрессии.

Нормальное уравнение обеспечивает решение в закрытой форме, которое напрямую вычисляет оптимальные значения коэффициентов в модели линейной регрессии. Уравнение может быть выражено как:

β = (Xᵀ X)⁻¹ Xᵀ Y

В этом уравнении:

  • β представляет вектор коэффициентов (включая термин перехвата).
  • X — входная матрица, включающая независимые переменные/признаки.
  • Y — выходной вектор, представляющий зависимую переменную.
  • (Xᵀ) обозначает транспонирование X.
  • (Xᵀ X)⁻¹ обозначает инверсию матричного произведения Xᵀ и X.

Почему он отличается от градиентного спуска?

  • Неитеративное
  • Нет необходимости в α (скорость обучения)
  • Медленно, когда набор данных большой

Оценка модели линейной регрессии

R-квадрат (R2) — это показатель, который количественно определяет долю изменчивости зависимой переменной, которая объясняется регрессионной моделью. Он принимает значения от 0 до 1, где более высокое значение указывает на лучшее соответствие модели данным.

Математическое представление R2 дается следующим образом:

R2 = 1 — (РСС/ТСС)

RSS = Σ(yᵢ — ŷ)²

В этой формуле:

  • yᵢ представляет фактическое значение зависимой переменной для i-й точки данных.
  • ŷ (y-шляпа) представляет прогнозируемое или оценочное значение зависимой переменной (y) на основе независимых переменных.

TSS = Σ(yᵢ — ȳ)²

В этой формуле:

  • yᵢ представляет фактическое значение зависимой переменной для i-й точки данных.
  • ȳ (y-bar) представляет собой среднее значение зависимой переменной по всем точкам данных.

В этом уравнении:
- RSS (остаточная сумма квадратов) измеряет сумму квадратов разностей между прогнозируемыми значениями и фактическими значениями для каждой точки данных. Он количественно определяет общее отклонение прогнозов модели от наблюдаемых данных.
 – TSS (общая сумма квадратов) представляет собой сумму квадратов ошибок между каждой точкой данных и средним значением переменной ответа. Он отражает общую изменчивость зависимой переменной.

Рассчитав R2, мы можем оценить способность модели объяснить наблюдаемую вариацию данных. Значение 1 указывает на то, что модель точно отражает вариацию, а значение 0 предполагает, что модель не может объяснить какую-либо изменчивость. Промежуточные значения указывают долю вариации, объясняемую моделью.

R2 обычно используется как мера качества подгонки в моделях линейной регрессии. Однако важно учитывать его ограничения, такие как его зависимость от количества предикторов и его неспособность определить достоверность или значимость модели. Следовательно, R2 следует интерпретировать вместе с другими показателями оценки и соображениями, специфичными для предметной области.

Предположения линейной регрессии

Предположение о линейности

Предположение о линейности в линейной регрессии утверждает, что существует линейная связь между независимыми переменными и зависимой переменной. Это предположение подразумевает, что изменение зависимой переменной прямо пропорционально изменению независимых переменных. Другими словами, связь между переменными можно изобразить прямой линией.

Тестирование предположения о линейности:

  • График рассеяния. Визуально осмотрите график рассеяния, чтобы увидеть, образуют ли точки данных примерно прямую линию.
  • Матрица корреляции. Рассчитайте коэффициент корреляции Пирсона, который измеряет силу линейной связи между переменными-предикторами и переменной-ответом. Коэффициент корреляции, равный 0, указывает на отсутствие линейной зависимости. Коэффициент корреляции, равный 1, указывает на идеальную линейную зависимость.
  • Статистический тест. Другой вариант — использовать тест на линейность, такой как тест Гольдфельда-Квандта, для формальной оценки допущения о линейности.

Устранение допущения о линейности:

  • Нелинейные преобразования. Применяйте математические преобразования (логарифмические, экспоненциальные, преобразование квадратного корня и т. д.) к переменным для получения нелинейных взаимосвязей.
  • Полиномиальная регрессия. Включите полиномы более высокого порядка (например, квадратичные, кубические) в уравнение регрессии для моделирования нелинейных отношений.
  • Разработка признаков: создавайте новые производные признаки или переменные на основе знаний предметной области, чтобы ввести линейность в модель.
  • Выбор модели. Рассмотрите альтернативные модели регрессии (например, нелинейную регрессию), предназначенные для обработки нелинейных отношений.

Предположение о независимости

Предполагается, что наблюдения или точки данных, используемые в регрессионной модели, не зависят друг от друга. Вот упрощенное объяснение предположения о независимости:

  • Независимость наблюдений. Наблюдения или точки данных, используемые в линейной регрессии, должны быть независимы друг от друга. Это означает, что значение одного наблюдения не должно зависеть от значения другого наблюдения или коррелировать с ним. Каждая точка данных должна представлять отдельное и несвязанное наблюдение.

Предположение о независимости тестирования:

Чертеж :

  • Нанесите остатки на график против прогнозируемых значений: нанесите остатки на ось Y и предсказанные значения на ось X.
  • Случайное рассеяние вокруг горизонтальной линии: если остатки случайным образом разбросаны по горизонтальной линии, это означает, что ошибки не зависят от прогнозируемых значений.

Статистический тест:

  • Тест Дарбина-Ватсона: тест Дарбина-Ватсона сравнивает автокорреляцию остатков (разницы между прогнозируемыми и наблюдаемыми значениями) с известным значением.

Предположение о гомоскедастичности

Гомоскедастичность — это статистическое допущение в регрессии, согласно которому дисперсия члена ошибки (остатки) остается постоянной для всех значений независимых переменных. Вот упрощенное объяснение:

  • Постоянная дисперсия ошибки. Гомоскедастичность предполагает, что величина ошибки или изменчивости в регрессионной модели постоянна и не меняется в зависимости от значений независимых переменных.
  • Равный разброс ошибок. Гомоскедастичность подразумевает, что разброс или дисперсия остатков вокруг линии регрессии одинаков для всех уровней независимых переменных.

Предположение о нормальности

Предположение о нормальности для линейной регрессии относится к предположению, что остатки/ошибки (разницы между предсказанными значениями и наблюдаемыми значениями) нормально распределены. Другими словами, предполагается, что ошибки следуют колоколообразной кривой.

Проверка предположения о нормальности:

  • Построение графика. Нанесите на график остатки (разницы между прогнозируемыми и наблюдаемыми значениями) и найдите кривую в форме колокола. Если остатки распределены нормально, это говорит о том, что предположение о нормальности не было нарушено.
  • Статистический тест: тест Андерсона-Дарлинга или тест Шапиро-Уилка. Эти тесты сравнивают распределение остатков с нормальным распределением и обеспечивают p-значение, которое можно использовать для определения того, было ли нарушено предположение о нормальности.

Отсутствие предположения о мультиколлинеарности

В случае множественной линейной регрессии предположение об отсутствии мультиколлинеарности относится к предположению об отсутствии сильной линейной связи между независимыми переменными. Другими словами, предполагается, что независимые переменные не сильно коррелируют друг с другом.

Если независимые переменные сильно коррелированы, может быть трудно сказать об их индивидуальном влиянии на переменную отклика, что может затруднить интерпретацию результатов регрессионного анализа.

Существуют различные методы, которые можно использовать для проверки и устранения мультиколлинеарности, например, изучение фактора инфляции дисперсии (VIF) или использование гребневой регрессии или регрессии LASSO.

Приложения линейной регрессии

Экономика. Линейную регрессию можно использовать для оценки спроса на конкретный продукт или услугу на основе таких факторов, как цена, доход и расходы на рекламу. Это помогает экономистам понять, как изменения этих переменных влияют на спрос, и может помочь в принятии решений о ценообразовании и маркетинге.

Ссылка на проект:



Медицина: линейная регрессия может применяться в медицинских исследованиях для изучения взаимосвязи между независимыми переменными (такими как возраст, вес и образ жизни) и зависимыми переменными (такими как кровяное давление, уровень холестерина или прогрессирование заболевания). . Это может помочь определить факторы риска, установить корреляции и оценить влияние вмешательств.

Финансы. Линейная регрессия используется в финансах для моделирования и анализа взаимосвязей между финансовыми переменными. Например, его можно использовать для прогнозирования цен на акции на основе таких факторов, как прибыль компании, процентные ставки или рыночные индексы. Его также можно применять для анализа соотношения риска и доходности.

Спортивная аналитика. Линейная регрессия используется в спортивной аналитике для оценки результатов игроков, рейтинга команд и прогнозирования результатов. Его можно использовать для определения влияния различных факторов на результаты игры, таких как статистика игрока, атрибуты команды и преимущество домашнего поля. Это также может помочь в выборе игрока.

Ссылка на проект:



Маркетинг. Линейная регрессия может использоваться в маркетинге для оценки эффективности рекламных кампаний, измерения степени удовлетворенности клиентов и прогнозирования их поведения. Это может помочь определить, какие маркетинговые каналы или стратегии приносят наибольшую отдачу от инвестиций, а также помочь в сегментации и таргетинге клиентов.

Контроль качества. Линейная регрессия может применяться в процессах контроля качества для оценки взаимосвязи между входными переменными (например, производственными параметрами) и выходными переменными (например, качеством продукции). Это может помочь определить критические факторы, влияющие на качество, оптимизировать параметры процесса и предсказать ожидаемое качество продукта.