Множественная линейная регрессия — это статистический метод, используемый для моделирования связи между двумя или более независимыми переменными и зависимой переменной. В этом блоге мы обсудим, как реализовать множественную линейную регрессию с помощью Python.

Во-первых, давайте начнем с данных. Мы будем использовать набор данных Boston Housing, который содержит информацию о различных характеристиках домов в Бостоне, таких как уровень преступности, среднее количество комнат в жилище и многое другое. Мы будем использовать этот набор данных для прогнозирования средней стоимости домов, занимаемых владельцами.

Мы будем использовать библиотеку scikit-learn для реализации множественной линейной регрессии. Во-первых, давайте импортируем необходимые библиотеки и загрузим набор данных.

import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.datasets import load_boston
boston = load_boston()
df = pd.DataFrame(boston.data, columns=boston.feature_names)
df['MEDV'] = boston.target 

(Здесь «MEDV» означает медианное значение домов, занимаемых владельцами, в наборе данных Boston Housing. Это зависимая переменная, которую мы пытаемся предсказать, используя независимые переменные в наборе данных)

Далее давайте разделим набор данных на наборы для обучения и тестирования. Мы будем использовать 70% данных для обучения и 30% для тестирования.

X = df.drop('MEDV', axis=1)
y = df['MEDV']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

Теперь мы можем подогнать модель линейной регрессии, используя обучающие данные.

codemodel = LinearRegression()
model.fit(X_train, y_train)

Теперь мы можем использовать модель для прогнозирования тестовых данных и оценки производительности модели с использованием среднеквадратичной ошибки (MSE).

y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print('Mean squared error: ', mse)

Результатом приведенного выше кода будет среднеквадратическая ошибка прогнозов.

В заключение, множественная линейная регрессия является полезным методом для моделирования связи между несколькими независимыми переменными и зависимой переменной. С Python и библиотекой scikit-learn реализация множественной линейной регрессии проста и может дать ценную информацию о ваших данных.