Что такое линейная регрессия?

Линейная регрессия — это статистический метод моделирования связи между одной или несколькими независимыми переменными (также известными как предикторы) и одной зависимой переменной (также известной как ответ или результат). Цель линейной регрессии — найти наиболее подходящую линию через набор точек данных, где линия определяется линейным уравнением формы y = MX + b, где y — зависимая переменная, x — независимая переменная. , m — наклон линии, а b — точка пересечения с осью y. Линейную регрессию можно использовать для простой линейной регрессии (одна независимая переменная) и множественной линейной регрессии (более одной независимой переменной). Это широко используемый метод в статистике и машинном обучении.

Допущения для линейной регрессии включают:

1. Линейность. Связь между независимыми и зависимыми переменными должна быть линейной.

2. Независимость: наблюдения должны быть независимыми друг от друга.

3. Гомоскедастичность: дисперсия ошибок должна быть постоянной на всех уровнях независимых переменных.

4. Нормальность: Ошибки должны быть нормально распределены.

5. Отсутствие мультиколлинеарности: независимые переменные не должны сильно коррелировать друг с другом.

Линейность:

линейность предполагает, что связь между независимыми переменными и зависимой переменной является линейной и что изменение зависимой переменной прямо пропорционально изменению независимых переменных

Независимость:

В линейной регрессии предположение о независимости означает, что наблюдения независимых переменных, также известных как предикторы, не должны коррелировать друг с другом. Другими словами, значение одной независимой переменной не должно предсказывать значение другой независимой переменной.

Гомоскедастичность:

В линейной регрессии гомоскедастичность относится к предположению, что дисперсия ошибок (также известная как остатки) постоянна на всех уровнях независимых переменных. Другими словами, предполагается, что ошибки имеют одинаковый разброс или изменчивость независимо от значения независимой переменной.

Гомоскедастичность важна, потому что она гарантирует постоянство дисперсии ошибок, что помогает сделать статистические выводы более надежными. Когда ошибки имеют разную дисперсию, это может привести к необъективным оценкам коэффициентов модели и неверным выводам из статистических тестов.

Нормальность:

В линейной регрессии предположение о том, что ошибка должна быть нормально распределена, означает, что распределение разницы между прогнозируемыми значениями (на основе модели) и фактическими наблюдаемыми значениями должно соответствовать нормальному или гауссовскому распределению. Это предположение важно, потому что многие статистические тесты и методы, используемые в линейной регрессии, основаны на этом предположении, например, t-тесты и доверительные интервалы. Когда ошибка не распределена нормально, результаты этих тестов могут быть недействительными и привести к неправильным выводам.