Множественная линейная регрессия используется для прогнозирования независимой переменной на основе нескольких зависимых переменных. В этой статье я расскажу, как вы можете предсказать выбросы Co2, используя sklearn (библиотека Python) + математические обозначения.
Почему мы используем множественную линейную регрессию?
- Чтобы определить силу влияния независимой переменной на зависимую переменную, например: влияет ли посещаемость лекций и пол на успеваемость студентов на экзаменах?
- Чтобы предсказать влияние изменений: Чтобы определить, как изменяется зависимая переменная, когда мы изменяем независимые переменные, например: как артериальное давление пациента увеличивается/снижается на каждую единицу увеличения/уменьшения ИМТ (удерживая другие факторы постоянными)
Математическая запись:
В множественной линейной регрессии независимая переменная (y) представляет собой линейную комбинацию зависимых переменных (x).
В отличие от простой линейной регрессии, множественная линейная регрессия больше не имеет линии наилучшего соответствия, вместо этого мы используем плоскость/гиперплоскость.
«Наша цель — найти наиболее подходящую гиперплоскость для данных»
Поиск оптимизированных параметров для гиперплоскости:
Самый распространенный метод — найти среднеквадратичную ошибку (MSE).
- MSE показывает, как в модели представлена квадратичная остаточная ошибка.
- Остаточная ошибка рассчитывается путем нахождения разницы между фактическим значением и прогнозируемым значением.
Оценить тета (параметр):
- Обычный метод наименьших квадратов:
OLS оценивает значение коэффициентов, минимизируя среднеквадратичную ошибку. обратная сторона использования OLS: это занимает очень много времени из-за матричных операций
2. Подход к оптимизации/градиентный спуск:
В этом процессе ошибка минимизируется с помощью итеративного процесса.
Градиентный спуск начинает оптимизацию со случайного значения для каждого коэффициента, вычисляет ошибку и итеративно изменяет значения коэффициента, чтобы минимизировать ошибку.
Это правильный подход при работе с большими наборами данных.
Предупреждения:
- Добавление слишком большого количества независимых переменных приведет к «переоснащению».
- Независимые переменные всегда должны быть непрерывными
- Визуально проверьте линейность между переменными, используя точечную диаграмму, прежде чем запускать множественную линейную регрессию. Если между переменными нет линейности, следует использовать нелинейную регрессию.
Загрузить данные и проверить линейность с помощью точечной диаграммы:
Как только данные обучения и тестирования разделены, мы можем снова построить график и посмотреть, будет ли распределение данных обучения
coefficients: [[11.01246952 7.62661829 9.56427884]] Residual Square Error : 0.88
Находя коэффициенты, мы определили связь между независимой переменной и зависимой переменной. Теперь у нас есть все параметры, необходимые для прогнозирования.
Удачного кодирования !!