"Машинное обучение"

Предположения линейной регрессии - что должны знать коллеги по анализу данных

Линейная регрессия - это линейный подход к моделированию взаимосвязи между целевой переменной и одной или несколькими независимыми переменными. Эта смоделированная взаимосвязь затем используется для прогнозной аналитики. Работа над алгоритмом линейной регрессии - это лишь половина дела. Другая половина заключается в понимании следующих предположений, от которых зависит этот метод:

1. Нормальность остатков

Чтобы линейная регрессия работала с заданными данными, предполагается, что ошибки (остатки) подчиняются нормальному распределению. Хотя это не обязательно требуется при очень большом размере выборки. Нормальность может быть проверена с помощью графика QQ (квантили данных VS нормальные квантили), где мы сопоставляем квантили из нашего набора данных и квантили из гипотетического нормального распределения, и здесь мы ожидаем увидеть почти прямой линия, чтобы проверить нормальность остатков.

Тест: тест Жарка Бера, тест Шапиро, график остатков

Пример: Ниже мы видим гистограмму остатков с оценкой плотности ядра, которая показывает нам, что в этом случае остатки вполне нормальны.

2. Однородность.

Однородность описывает ситуацию, когда шум / нарушение во взаимосвязи (силе дисперсии) между независимыми характеристиками и целевой переменной одинаковы для всех значений независимых значений. Итак, мы можем проверить это, используя диаграмму разброса остатков и прогнозируемых значений. Мы не должны видеть закономерности на этой диаграмме рассеяния, и все данные должны быть распределены случайным образом. Это подтверждает гомоскедастичность.

Тест: тест Голдфельда, график остатков VS аппроксимация

Пример. Ниже мы можем увидеть зависимости остатков от подобранного графика и еще один график с масштабированными остаточными значениями (чтобы показать, что шкалы могут показывать изменение случайности, но случайность будет присутствуют в гомоскедастических данных, что очень хорошо видно из графиков).

3. Линейность остатков.

Остатки - это члены ошибки, полученные при вычислении разницы между прогнозируемым целевым значением и наблюдаемым целевым значением. Линейность может наблюдаться, если и когда переменные-предикторы имеют прямолинейную связь с целевой переменной. Обычно не стоит беспокоиться, если остатки нормально распределены и гомоскедастичны.

Тест: тест радуги, график вероятности

Примечание. При рассмотрении уравнения линейность оценивается не по мощности функций / переменных из набора данных, а по мощности бета-параметров. .

Пример: Y = a + (β 1 * X 1) + ( β 2 * X 2²)

В приведенном выше примере X2 имеет степень 2, что означает, что переменная из нашего набора данных имеет степень 2, но ни один из бета-параметров (коэффициентов, полученных при выполнении регрессии) не имеет мощности, кроме 1. Это показывает, что линейность остатков здесь.

Ниже мы можем увидеть график вероятности, то есть наблюдаемые теоретические квантили нормального распределения VS, чтобы проверить линейность (что вполне применимо к нижним точкам данных в приведенных ниже данных). Помните, что ваши данные не будут идеально линейными, они должны иметь тенденцию к линейности.

4. Отсутствие мультиколлинеарности

Мультиколлинеарность - это состояние очень высокой взаимной корреляции или взаимосвязи между независимыми переменными. Это нарушение ослабляет статистическую мощность регрессионной модели, поэтому желательна низкая мультиколлинеарность или ее отсутствие.

Тест: коэффициент инфляции дисперсии (VIF), матрица корреляции / тепловая карта

Пример: Тепловая карта корреляции ниже показывает корреляцию между независимыми переменными и корреляцию этих независимых переменных с целевым значением (которым в приведенном ниже случае является цена). Таким образом, для проверки мультиколлинеарности нам не нужно проверять, как независимые переменные связаны с целью, поэтому мы можем игнорировать цену здесь. Для наглядности проверим некоторые отношения:

  1. INDUS имеет высокую отрицательную корреляцию с DIS (по мере увеличения INDUS DIS уменьшается)
  2. INDUS имеет высокую положительную корреляцию с НАЛОГОМ (по мере роста INDUS увеличивается налог)

Таким образом, когда переменные сильно коррелированы, может потребоваться удалить некоторые из этих переменных, в противном случае будет построена переобученная модель, потому что эти переменные по существу предоставляют одни и те же данные для модели.

5. Отсутствие автокорреляции

Автокорреляция возникает, когда остаточные ошибки зависят друг от друга, и это в конечном итоге снижает точность модели. Коррелограмма (также называемая графиком ACF функции автокорреляции или графиком автокорреляции) - это визуальный способ показать временную корреляцию в данных, которые меняются с течением времени. Это обычно происходит в моделях временных рядов, где следующий момент зависит от предыдущего. Итак, проще говоря, автокорреляция - это ошибка в один момент времени, которая переходит в следующий момент времени. Например, вы можете переоценить стоимость привлечения клиентов в первый месяц, что приведет к к завышению этой стоимости на последующие месяцы.

Тест: Тест Дарбина Ватсона

Пример: Коррелограмма ниже показывает коэффициент корреляции по оси Y и временной лаг этой корреляции по оси X. Мы видим, что значение корреляции высокое только для некоторых случаев во времени, и при переходе по оси X нет восходящего или нисходящего паттерна, поэтому возможности последовательной корреляции могут быть исключены.

Резюме

Вышеупомянутые допущения должны быть выполнены, прежде чем переходить к любой задаче линейной регрессии, однако временами могут быть определенные исключения, такие как указанное в «Линейность остатков». Для других предположений мы не требуем совершенства, но результат не должен сильно отличаться от того, что мы предполагали. Итак, если, скажем, автокорреляция меньше или линейность остатков стремится к линейности, то это приемлемо до некоторого предела. Графики помогают нам визуализировать, как данные соответствуют предположениям, которые мы планировали придерживаться, и тесты доказывают это.

Тщательно проверил все вышеперечисленное? Теперь мы можем продолжить поиск наиболее подходящей линии регрессии!