Регрессионный анализ — это статистический метод, используемый для изучения взаимосвязи между двумя или более переменными. Это мощный инструмент для прогнозирования будущих результатов на основе прошлых данных. Существует два основных типа регрессионного анализа: простая линейная регрессия и множественная линейная регрессия. В этой статье мы рассмотрим различия между этими двумя методами, используя примеры для иллюстрации ключевых понятий.

Простая линейная регрессия

Простая линейная регрессия — это статистический метод, используемый для моделирования взаимосвязи между двумя переменными: зависимой переменной и независимой переменной. Зависимая переменная — это переменная, которую мы хотим предсказать, а независимая переменная — это переменная, которую мы используем для предсказания. В простой линейной регрессии мы предполагаем, что существует линейная связь между двумя переменными, что означает, что изменение независимой переменной прямо пропорционально изменению зависимой переменной.

Например, предположим, что мы хотим предсказать вес человека на основе его роста. В этом случае вес является зависимой переменной, а рост — независимой переменной. Мы собирали данные о росте и весе выборки людей и использовали эти данные для создания регрессионной модели. Модель позволит нам предсказать вес человека на основе его роста.

Уравнение для простой модели линейной регрессии:

Y = a + bX + e

где Y — зависимая переменная, X — независимая переменная, a — точка пересечения (значение Y при X = 0), b — наклон (изменение Y при изменении X на одну единицу), а e — член ошибки (разница между предсказанным значением Y и фактическим значением Y).

Множественная линейная регрессия

Множественная линейная регрессия — это статистический метод, используемый для моделирования связи между двумя или более независимыми переменными и зависимой переменной. Идея множественной линейной регрессии аналогична простой линейной регрессии, за исключением того, что теперь у нас есть несколько независимых переменных, которые мы используем для нашего прогноза.

Например, допустим, мы хотим предсказать зарплату человека на основе его возраста, образования и многолетнего опыта. В этом случае заработная плата является зависимой переменной, а возраст, образование и стаж работы — независимыми переменными. Мы собирали данные об этих переменных для выборки людей и использовали эти данные для создания регрессионной модели. Модель позволит нам прогнозировать зарплату человека на основе его возраста, образования и многолетнего опыта.

Уравнение для модели множественной линейной регрессии:

Y = a + b1X1 + b2X2 + b3X3 + … + bnXn + e

Где Y — зависимая переменная, X1, X2, X3, … Xn — независимые переменные, a — точка пересечения, b1, b2, b3,... bn — наклоны (изменение Y при изменении на одну единицу каждая независимая переменная), а e — член ошибки.

Различия между простой линейной регрессией и множественной линейной регрессией

Основное различие между простой линейной регрессией и множественной линейной регрессией заключается в количестве независимых переменных, используемых в модели. В простой линейной регрессии мы используем одну независимую переменную, а в множественной линейной регрессии мы используем две или более независимых переменных.

Еще одно отличие заключается в сложности модели. Простые модели линейной регрессии относительно просты и легко интерпретируются, поскольку они включают только две переменные. С другой стороны, модели множественной линейной регрессии более сложны и требуют большей вычислительной мощности. Они также требуют более тщательной интерпретации, поскольку отношения между независимыми переменными и зависимой переменной могут быть более трудными для понимания.

Пример

Чтобы проиллюстрировать различия между простой линейной регрессией и множественной линейной регрессией, рассмотрим пример. Предположим, мы хотим спрогнозировать результат человека по математическому тесту на основе его времени учебы и его показателя IQ. Мы собираем данные о времени обучения (в часах) и баллах IQ (по шкале от 0 до 100) для выборки из 50 студентов, а также их баллы по математическому тесту (из 100). Затем мы можем использовать эти данные для создания как простой модели линейной регрессии, так и модели множественной линейной регрессии.

Во-первых, давайте создадим простую модель линейной регрессии. Мы можем нанести данные на точечный график, чтобы визуализировать взаимосвязь между временем обучения и результатами по математике.

Из точечной диаграммы видно, что существует положительная линейная зависимость между временем обучения и оценками по математике. Затем мы можем подобрать линию линейной регрессии к данным, чтобы оценить взаимосвязь между двумя переменными.

Уравнение для простой модели линейной регрессии:

Оценка по математике = 32,55 + 1,89 x Время обучения

Это означает, что на каждый час увеличения учебного времени мы ожидаем, что оценка учащегося по математике увеличится в среднем на 1,89 балла.

Теперь давайте создадим модель множественной линейной регрессии, которая включает в себя как время обучения, так и показатель IQ в качестве независимых переменных. Уравнение для модели множественной линейной регрессии:

Оценка по математике = 17,62 + 1,68 x Время обучения + 0,26 x Показатель IQ

Это означает, что на каждый час увеличения учебного времени мы ожидаем, что оценка учащегося по математике увеличится в среднем на 1,68 балла, сохраняя при этом показатель IQ постоянным. Аналогичным образом, при каждом повышении IQ на один балл мы ожидаем, что оценка учащегося по математике увеличится в среднем на 0,26 балла, при неизменном времени обучения.

Интерпретация результатов

Из простой модели линейной регрессии мы можем сделать вывод, что время обучения оказывает значительное положительное влияние на результаты по математике. Однако мы не можем определить, оказывают ли показатели IQ значительное влияние на результаты по математике или нет. Это связано с тем, что простая модель линейной регрессии включает только одну независимую переменную.

Из модели множественной линейной регрессии мы можем сделать вывод, что как время обучения, так и показатель IQ оказывают значительное положительное влияние на результаты по математике. Это означает, что учащиеся, которые больше учатся и имеют более высокие показатели IQ, скорее всего, будут иметь более высокие оценки по математике.

Однако следует отметить, что взаимосвязь между временем обучения и результатами по математике в модели множественной линейной регрессии слабее, чем в модели простой линейной регрессии. Это связано с тем, что влияние времени обучения частично объясняется оценкой IQ в модели множественной линейной регрессии.

Заключение

В заключение, как простая линейная регрессия, так и множественная линейная регрессия являются мощными инструментами для прогнозирования результатов на основе прошлых данных. Простая линейная регрессия используется, когда мы хотим спрогнозировать зависимую переменную на основе одной независимой переменной, а множественная линейная регрессия используется, когда мы хотим спрогнозировать зависимую переменную на основе двух или более независимых переменных. В то время как простые модели линейной регрессии относительно просты и легко интерпретируются, модели множественной линейной регрессии более сложны и требуют большей вычислительной мощности. Кроме того, отношения между независимыми переменными и зависимой переменной могут быть более сложными для понимания в моделях множественной линейной регрессии. В целом выбор между простой линейной регрессией и множественной линейной регрессией зависит от конкретного вопроса исследования и характера анализируемых данных.