Простая и множественная линейная регрессия часто являются первыми моделями, используемыми для исследования взаимосвязей в данных. Если вы поиграете с ними достаточно долго, то со временем поймете, что они могут давать разные результаты.

Отношения, которые значимы при использовании простой линейной регрессии, могут больше не существовать при использовании множественной линейной регрессии, и наоборот, незначительные отношения в простой линейной регрессии могут стать значимыми при множественной линейной регрессии.

Понимание того, почему это может происходить, во многом поможет вам лучше понять, что происходит под капотом линейной регрессии.

Выполняя быстрый обзор простой линейной регрессии, он пытается смоделировать данные в форме:

и если член наклона является значительным, то для каждого увеличения x на единицу есть среднее увеличение y на beta_1, которое вряд ли произойдет случайно.

Представьте, что мы занимаемся производством мороженого, пытаясь выяснить, что стимулирует продажи, и измерили 2 независимые переменные: (1) температуру и (2) количество людей в шортах, которые мы наблюдаем, идя по улице за 10 минут.

Наша зависимая переменная: количество продаваемого мороженого.

Сначала мы строим график зависимости температуры от проданного мороженого.

и выполните простую линейную регрессию, чтобы найти значимую взаимосвязь между продажами и температурой. Это имеет смысл.

Затем мы сопоставляем количество наблюдаемых коротких продаж с продажами.

и сделайте еще одну простую линейную регрессию, чтобы найти значимую взаимосвязь между количеством людей в шортах, которые мы наблюдаем за 10 минут, и продажами мороженого. Интересно ... возможно, в этом нет особого смысла.

Затем мы переходим к множественной линейной регрессии, которая пытается смоделировать данные в форме:

Множественная линейная регрессия немного отличается от простой линейной регрессии. Прежде всего, обратите внимание, что вместо одной независимой переменной мы можем включить столько независимых переменных, сколько захотим. Интерпретация также различается. Если один из коэффициентов, скажем, beta_i, является значимым, это означает, что на каждую единицу увеличения x_i, при сохранении всех других независимых переменных постоянными, происходит среднее увеличение y на beta_i, что маловероятно происходят случайно.

Мы выполняем множественную линейную регрессию, включая температуру и короткие замыкания в нашей модели, и смотрим на наши результаты.

Температура все еще в значительной степени связана, но шорты - нет. Она перестала быть значимой в простой линейной регрессии, чтобы перестать быть значимой в множественной линейной регрессии.

Почему?

Ответ можно найти, нанеся шорты и температуру. Кажется, есть отношения.

Когда мы проверяем корреляцию между этими двумя переменными, мы обнаруживаем, что r = 0,3 Короткое замыкание и температура имеют тенденцию увеличиваться вместе.

Когда мы провели простую линейную регрессию и обнаружили взаимосвязь между короткими продажами и продажами, мы действительно обнаружили взаимосвязь между температурой и продажами, которая была связана с короткими продажами, потому что шорты увеличивались с температурой.

Когда мы провели множественную линейную регрессию, мы посмотрели на взаимосвязь между короткими продажами и продажами при постоянной температуре, и эта взаимосвязь исчезла. Однако истинная взаимосвязь между температурой и продажами сохранилась.

Коррелированные данные часто могут приводить к простой и множественной линейной регрессии, дающей разные результаты. Всякий раз, когда вы обнаруживаете значительную взаимосвязь с помощью простой линейной регрессии, убедитесь, что вы отслеживаете ее с помощью множественной линейной регрессии. Вы можете быть удивлены результатом!

(Примечание: эти данные мы сгенерировали с помощью команды mvrnorm () в R)

Не стесняйтесь оставлять любые мысли или вопросы в комментариях ниже!