Модель полилинейной регрессии основана на более чем двух независимых переменных. Эти переменные используются для прогнозирования результата для зависимой переменной.

Я попытаюсь выполнить модель полилинейной регрессии с помощью Python за несколько простых шагов. Сначала следуют несколько необходимых библиотек для выполнения регрессионного анализа.

импортировать pandas как pd
импортировать numpy как np
импортировать matplotlib.pyplot как plt
импортировать seaborn как sns
из sklearn.model_selection import train_test_split
из sklearn.linear_model импортировать LinearRegression
показатели импорта из sklearn
встроенный %matplotlib

Следующим шагом будет импорт данных с помощью библиотеки Pandas. Я буду импортировать данные о ценах на жилье, и они будут использоваться для прогнозирования цен на жилье на основе различных факторов (независимая переменная). данные можно скачать по ссылке. Эти данные находятся в файле Excel, и их можно импортировать как:

Давайте проанализируем тип каждой переменной вместе с количеством записей (строк) с помощью функции info(). Есть семь столбцов, и каждый из них содержит 414 записей или строк.

На следующем шаге мы проверили отсутствующие значения с помощью функции isnull().any(). Он проанализировал, что в наборе данных нет пропущенных значений.

Давайте проведем некоторые статистические измерения данных, чтобы понять это. Для этого функция describe() имеет следующий вывод.

Проанализируем связь переменных друг с другом с помощью корреляции. Тепловая карта подошла к наглядной корреляции каждой переменной с другими.

На приведенном выше рисунке вычисляется положительная корреляция для переменных возраста дома, расстояния до ближайшей станции метро и магазинов шаговой доступности по отношению к цене дома на единицу площади.

Выделим независимые и зависимые переменные. Зависимая переменная (Y) представляет собой цену дома за единицу площади, тогда как независимые переменные состоят из возраста дома, расстояния до ближайшей станции метро и магазинов. Для этой цели используется следующая команда.

Следующим шагом будет разделение данных на обучающие и тестовые. test_size = 0,2 объясняют, что 80 % данных используются для обучения, а 20 % — для тестирования. После разделения данных на них устанавливается модель.

Теперь пришло время вычислить результаты регрессионной модели. Первый и самый важный термин заключается в оценке коэффициента детерминанта вместе со значениями коэффициента и точки пересечения.

Теперь мы можем предсказать значения y с помощью следующей команды. На следующем рисунке значения y прогнозируются, а сравнение фактических и прогнозируемых значений извлекается в виде кадра данных.

Давайте визуализируем прогнозируемые и фактические значения на графике. Для этой цели можно использовать линейный график:

Не стесняйтесь обсуждать…!

Удачи!