Множественный линейный регрессионный анализ набора данных о жилье в Бостоне

В этой статье будет представлен краткий обзор того, какие переменные являются значимыми, а какие нет, с точки зрения множественной регрессии на основе набора данных о жилье в Бостоне, который приведен ниже для справочных целей.

Мы знаем различные переменные, которые мы рассматриваем, и они заключаются в следующем:

В нашей модели множественной линейной регрессии мы укажем MEDV как нашу зависимую переменную, поскольку мы собираемся запустить регрессию для этой переменной, а все остальные переменные перечислим как независимые переменные. Наша цель — увидеть, какие переменные значимы на различных уровнях p-значений.

Нас также будет интересовать тот факт, насколько модель достаточно сильна, и мы рассмотрим значение R в квадрате и в этом случае.

Мы запускаем модель линейной регрессии, используя эту модель.

Наши результаты линейной регрессии следующие:

Как мы видим, эта модель очень значима, поскольку имеет значение R-квадрата 0,8415 и R-квадрата, скорректированного как 0,8373, что является значимым.

Что касается значений параметров, интересно отметить, что значения многих признаков отрицательны, а это означает, что такие значения также не только значимы, но также снижают цену дома и также являются значимыми.

Преступность в этом районе, концентрация оксида азота в этом районе, зоны, в которых больше зон для проживания, имеют отрицательные значения, а также очень значимые значения p, что означает, что они приводят к снижению цен на жилье на основе нашей модели. Другими значениями, которые также снижают медианную стоимость дома, являются следующие: DIS, TAX, PTRATIO и LSTAT, которые значимы на уровне 0,001 в отношении p-значения и имеют отрицательное значение параметров.

Особенностями, которые вызывают увеличение средней стоимости дома и являются очень значимыми, являются CHAS, RM и RAD. Это имеет смысл, так как недвижимость вокруг реки Чарльз имеет премию, а также увеличение количества комнат также приводит к увеличению стоимости дома, а также расстояния до автомагистралей. INDUS, доля нерозничного бизнеса в этом районе также значительна, но не настолько высока, исходя из p-значений.

Затем мы запускаем прогнозирование и точность для этих моделей, используя функции прогнозирования и точности в R, чтобы увидеть, как наша обучающая модель сравнивает себя с проверочной моделью.

Здесь мы видим, что, когда мы смотрим на показатель RMSE, наши показатели для проверки немного выше, чем у модели обучения, т. Е. 3,533832 против 3,931374, что показывает, что наша модель обучения не соответствует данным. Другие показатели, такие как MAPE, MPE , ME и MAE, также показывают аналогичную картину.

Использованная литература:

https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

Множественный линейный регрессионный анализ набора данных о жилье в Бостоне

Вопросы по теме