Множественная линейная регрессия используется для прогнозирования независимой переменной на основе нескольких зависимых переменных. В этой статье я расскажу, как вы можете предсказать выбросы Co2, используя sklearn (библиотека Python) + математические обозначения.

Почему мы используем множественную линейную регрессию?

  1. Чтобы определить силу влияния независимой переменной на зависимую переменную, например: влияет ли посещаемость лекций и пол на успеваемость студентов на экзаменах?
  2. Чтобы предсказать влияние изменений: Чтобы определить, как изменяется зависимая переменная, когда мы изменяем независимые переменные, например: как артериальное давление пациента увеличивается/снижается на каждую единицу увеличения/уменьшения ИМТ (удерживая другие факторы постоянными)

Математическая запись:

В множественной линейной регрессии независимая переменная (y) представляет собой линейную комбинацию зависимых переменных (x).

В отличие от простой линейной регрессии, множественная линейная регрессия больше не имеет линии наилучшего соответствия, вместо этого мы используем плоскость/гиперплоскость.

«Наша цель — найти наиболее подходящую гиперплоскость для данных»

Поиск оптимизированных параметров для гиперплоскости:

Самый распространенный метод — найти среднеквадратичную ошибку (MSE).

  • MSE показывает, как в модели представлена ​​квадратичная остаточная ошибка.
  • Остаточная ошибка рассчитывается путем нахождения разницы между фактическим значением и прогнозируемым значением.

Оценить тета (параметр):

  1. Обычный метод наименьших квадратов:

OLS оценивает значение коэффициентов, минимизируя среднеквадратичную ошибку. обратная сторона использования OLS: это занимает очень много времени из-за матричных операций

2. Подход к оптимизации/градиентный спуск:

В этом процессе ошибка минимизируется с помощью итеративного процесса.

Градиентный спуск начинает оптимизацию со случайного значения для каждого коэффициента, вычисляет ошибку и итеративно изменяет значения коэффициента, чтобы минимизировать ошибку.

Это правильный подход при работе с большими наборами данных.

Предупреждения:

  1. Добавление слишком большого количества независимых переменных приведет к «переоснащению».
  2. Независимые переменные всегда должны быть непрерывными
  3. Визуально проверьте линейность между переменными, используя точечную диаграмму, прежде чем запускать множественную линейную регрессию. Если между переменными нет линейности, следует использовать нелинейную регрессию.

Загрузить данные и проверить линейность с помощью точечной диаграммы:

Как только данные обучения и тестирования разделены, мы можем снова построить график и посмотреть, будет ли распределение данных обучения

coefficients:  [[11.01246952  7.62661829  9.56427884]]
Residual Square Error : 0.88

Находя коэффициенты, мы определили связь между независимой переменной и зависимой переменной. Теперь у нас есть все параметры, необходимые для прогнозирования.

Удачного кодирования !!