В мире машинного обучения линейная регрессия является основным алгоритмом решения задач регрессии. Раскрывая отношения между независимыми переменными и зависимой переменной, линейная регрессия позволяет нам делать прогнозы и получать ценную информацию. Однако, как и любая модель, линейная регрессия опирается на определенные допущения для ее точного применения. В этом сообщении блога мы углубимся в базовое понимание линейной регрессии и изучим предположения, которые она делает, а также то, что происходит, когда эти предположения нарушаются.

Основное понимание модели:

Линейная регрессия — это параметрический контролируемый алгоритм машинного обучения, который используется для решения проблемы регрессии. Линейная регрессия, по сути, направлена ​​​​на поиск наилучшей линии соответствия между независимыми переменными и зависимой переменной. Это делается путем оценки коэффициентов (параметров) для соответствующих независимых признаков, которые способствуют прогнозированию целевой (зависимой) переменной.

Подводя итог, модель делает прогнозы на основе параметрических значений независимых переменных.

Уравнение регрессии: проданные зонты = b * количество осадков + a

ПРЕДПОЛОЖЕНИЯ:

  1. Линейность. Независимые переменные линейно связаны с зависимой переменной. По сути, это означает, что изменение независимой переменной приводит к пропорциональному изменению зависимой переменной.

y = B0 + B1X

Здесь при единичном изменении X y будет линейно изменяться в B1 раз.

2. Мультиколлинеарность. Когда независимые переменные сильно коррелируют друг с другом, это признак высокой мультиколлинеарности. Мультиколлинеарность может затруднить анализ отдельных эффектов функций при прогнозировании цели.

3.Гомоскедастичность: дисперсия остатков постоянна на всех уровнях независимых переменных. Остатки постоянны в различных диапазонах значений.

4. Нормальность. Остатки при построении следуют нормальному распределению. Это предположение важно, когда выполняются различные статистические тесты для получения выводов о значимости признака.

НАРУШЕНИЕ ПРЕДПОЛОЖЕНИЙ:

1. Линейность. Когда предположение о линейности нарушается, это в первую очередь означает отсутствие линейной связи между независимыми и зависимыми переменными. Поскольку в линейной регрессии мы используем линейную функцию для получения линии наилучшего соответствия, в этом случае было бы неэффективно использовать модель линейной регрессии. Может случиться так, что взаимосвязь между функциями и целью кривая или нелинейная. В таких случаях модель линейной регрессии может неточно отражать истинную взаимосвязь.

2. Мультиколинеарность. Нарушение мультиколлинеарности может привести к неправильной оценке коэффициентов, которые в основном формируют саму модель линейной регрессии. Высокая мультиколлинеарность увеличивает стандартную ошибку, что приводит к увеличению p-значения и снижению t-статистики. Фактическое значение функции не может быть определено. Это может маскировать эффект или вклад каждой функции в прогнозирование целевой переменной.

3.Гомоскедастичность. Нарушение гомоскедастичности практически означает, что модель не может последовательно прогнозировать в различных диапазонах значений данных. Разброс остатков может варьироваться, из-за чего модель ненадежна, когда дело доходит до прогнозов. Неточная проверка гипотез и оценки коэффициентов.

4. Нормальность. Отклонение от нормальности остатков может повлиять на достоверность статистических тестов и доверительных интервалов, связанных с моделью. В некоторых случаях это также может повлиять на точность прогнозов.

ИСПРАВЛЕНИЕ (при нарушении допущений):

1. Для устранения нелинейности можно применять преобразования переменных или использовать полиномиальные термины для захвата криволинейных взаимосвязей.

2. Мультиколлинеарность можно смягчить, удалив сильно коррелирующие переменные или используя такие методы, как анализ основных компонентов (PCA) или гребневая регрессия.

3. Для обработки гетероскедастичности можно рассмотреть преобразование переменных (например, логарифмическое преобразование или преобразование квадратного корня) или использование согласованных с гетероскедастичностью стандартных ошибок. Один из способов проверить это построить график Q-Q.

4. Если предположение о нормальности нарушается, преобразование данных или применение надежных методов регрессии (например, надежные стандартные ошибки) могут помочь решить проблему.

Когда мы завершаем наше путешествие по предположениям и нарушениям линейной регрессии, становится ясно, что понимание этих концепций имеет решающее значение для построения надежных и эффективных моделей. Хотя нарушения допущений могут иметь место, мы также изучили различные методы исправления для их устранения. Помня об этих предположениях и предпринимая соответствующие шаги для устранения нарушений, мы можем использовать истинную силу линейной регрессии и раскрывать ее потенциал в прогнозировании реальных результатов.

Дополнительные ресурсы и ссылки: