Подгонка модели множественной линейной регрессии, мощность преобразования Бокскокса с использованием R

Влияние значений лямбда и логарифмического правдоподобия на SSE

В этой статье будет дано пошаговое руководство по подбору модели множественной линейной регрессии, адекватности модели и применению мощного преобразования и проверки Бокскокса.

Линейная регрессия играет жизненно важную роль в прогнозировании и понимании степени взаимосвязи между переменными, т. Е. Насколько велика взаимосвязь между переменными (реакция и объяснение). Существует два типа модели линейной регрессии: простая модель линейной регрессии (переменная отклика и одна независимая переменная) и модель множественной линейной регрессии (переменная отклика и две или более объясняющие переменные). Я углублюсь в мир модели множественной линейной регрессии и преобразования Бокса-Кокса. Цель состоит в том, чтобы изучить, как этот метод может повысить точность и надежность прогнозов и сделать их ценными активами в области анализа данных и принятия бизнес-решений. Присоединяйтесь ко мне, пока мы исследуем и открываем возможности множественной линейной регрессии и ценные эффекты преобразования Бокса-Кокса.

Несколько допущений, таких как постоянная дисперсия (гомоскедастичность), нормальность данных, представляют собой проблемы, с которыми сталкиваются при работе с линейной регрессией. Преобразование Бокса-Кокса, мощный метод, предназначенный для смягчения этих проблем. Этот метод преобразования делает все возможное, преобразуя наши данные в более подходящие для анализа. Формула дает ниже

(y^лямбда-1)/лямбда

Во-первых, давайте импортируем набор данных cars_data_2 и исследуем данные с помощью R. Набор данных, используемый для этого отчета, состоит из 20 переменных и 199 наблюдений, но для этого отчета мы рассмотрим 8 переменных, включая тип топлива, количество цилиндров, степень сжатия, лошадиные силы, городские мили на галлон, шоссе миль на галлон, объем двигателя и цена.

Интересующие переменные: цена ($), мили на галлон по шоссе, мили на галлон по городу, лошадиные силы, степень сжатия, количество цилиндров, объем двигателя и тип топлива. Мы установим взаимосвязь между ценой (переменная ответа) и милями на галлон по шоссе, милями на галлон по городу, мощностью в лошадиных силах, степенью сжатия, количеством цилиндров, объемом двигателя (объясняющие переменные), используя тип топлива для сравнения, т. е. как для газового типа автомобиля, так и для дизельного типа. авто.

Средняя цена автомобиля на газу составляет 12 954 доллара, а на дизель - 15 838 долларов, автомобиль на дизельном топливе дороже, чем на газе.

Мы исследуем взаимосвязь между зависимой переменной (ценой) и независимыми переменными, используя точечную диаграмму. Это поможет нам определить закономерность, силу и направление взаимосвязи, существующей между переменными.

Здесь действуют как положительные, так и отрицательные типы отношений, положительные отношения просто означают, что по мере увеличения одного увеличивается и другое, в то время как отрицательный тип отношений означает, что по мере увеличения одного значение другого уменьшается или наоборот.

Параметры b0 (перехват) и шесть других параметров модели (b1, b2, b3, b4, b5, b6) для каждой объясняющей/прогностической переменной оцениваются с использованием функции lm() в r. Параметры объясняли изменение переменной отклика.

В этом отчете интересны два типа автомобилей: газовый и дизельный. Мы будем рассматривать автомобили газового и дизельного типа соответственно.

В отчете показана большая остаточная стандартная ошибка, равная 3520, и скорректированный R в квадрате, равный 0,8051. Это простое среднее 80,51%-ное отклонение переменной отклика объясняется независимыми переменными.

Далее мы проверяем, адекватна ли подобранная модель, нанося визуализацию остатка в зависимости от подобранного значения.

Остаточный график показал, что модель неадекватна. Точки имеют изогнутый узор, подобный U-образной форме, вокруг линии остатка = 0, т. е. точки сгруппированы по изогнутому узору.

Позвольте повысить точность модели, выполнив преобразование Бокса-Кокса для переменной отклика и сравнив результат с базовой моделью.

Модель преобразования Бокса-Кокса

Это применяется для уменьшения значения суммы квадратов ошибок, а также для преобразования распределения переменной отклика в нормальное распределение. Он использует преобразование степени лямбда-значения для зависимой переменной y.

Давайте определим значение индекса и получим максимальное логарифмическое правдоподобие из приведенного выше графика. Переменная ответа будет преобразована с использованием значения лямбда, полученного после преобразования.

Я создал новый набор данных с именем «Данные», затем преобразовал переменную ответа y в набор данных «данные», используя значение лямбда. Мы подгоним модель линейной регрессии, изучим сводку модели и график остаточных и подогнанных значений.

Сводный отчет показал значительное снижение SSE, а скорректированный квадрат R увеличился до 0,8437, что означает, что модель объясняет 84,37% вариации переменной отклика. Но прежде чем сделать вывод об адекватности новой модели, давайте рассмотрим остаточный график.

Сравнивая эту диаграмму с модельным остаточным графиком на рис. 6, точки разбросаны по обеим сторонам линии остатка = 0, U-образной группировки вокруг линии нет. Таким образом, это адекватная модель, которую можно использовать для моделирования по цене автомобиля типа ГАЗ. Итак, в заключение, модель подходит после Box-Cox, несомненно, лучше.

Вот и все.

Следующий мой отчет будет продолжением этого отчета, где мы будем рассматривать дизельный тип авто.

Ссылка-

[1] Подгонка модели множественной линейной регрессии, зондирование и проверка модели Нитеш Джиндал