Множественная линейная регрессия — это статистический метод, используемый для моделирования связи между двумя или более независимыми переменными и зависимой переменной. В этом блоге мы обсудим, как реализовать множественную линейную регрессию с помощью Python.
Во-первых, давайте начнем с данных. Мы будем использовать набор данных Boston Housing, который содержит информацию о различных характеристиках домов в Бостоне, таких как уровень преступности, среднее количество комнат в жилище и многое другое. Мы будем использовать этот набор данных для прогнозирования средней стоимости домов, занимаемых владельцами.
Мы будем использовать библиотеку scikit-learn
для реализации множественной линейной регрессии. Во-первых, давайте импортируем необходимые библиотеки и загрузим набор данных.
import pandas as pd import numpy as np from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split from sklearn.metrics import mean_squared_error from sklearn.datasets import load_boston boston = load_boston() df = pd.DataFrame(boston.data, columns=boston.feature_names) df['MEDV'] = boston.target
(Здесь «MEDV» означает медианное значение домов, занимаемых владельцами, в наборе данных Boston Housing. Это зависимая переменная, которую мы пытаемся предсказать, используя независимые переменные в наборе данных)
Далее давайте разделим набор данных на наборы для обучения и тестирования. Мы будем использовать 70% данных для обучения и 30% для тестирования.
X = df.drop('MEDV', axis=1) y = df['MEDV'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
Теперь мы можем подогнать модель линейной регрессии, используя обучающие данные.
codemodel = LinearRegression() model.fit(X_train, y_train)
Теперь мы можем использовать модель для прогнозирования тестовых данных и оценки производительности модели с использованием среднеквадратичной ошибки (MSE).
y_pred = model.predict(X_test) mse = mean_squared_error(y_test, y_pred) print('Mean squared error: ', mse)
Результатом приведенного выше кода будет среднеквадратическая ошибка прогнозов.
В заключение, множественная линейная регрессия является полезным методом для моделирования связи между несколькими независимыми переменными и зависимой переменной. С Python и библиотекой scikit-learn
реализация множественной линейной регрессии проста и может дать ценную информацию о ваших данных.