Эта статья является продолжением Основ линейной регрессии. Вы можете прочитать то же самое здесь. Мы завершили статью примечанием о том, какие данные подходят для LR. Прежде чем квалифицировать LR для запуска данных, необходимо проанализировать набор данных. . Если одно или несколько из этих предположений нарушены, то результаты нашей линейной регрессии могут быть безрассудными или даже вводящими в заблуждение.

Прежде чем перечислить их, давайте дадим несколько определений.

Остаток. Расстояние по вертикали между каждой точкой данных и линией регрессии. Его также можно определить как фактическое значение y относительно прогнозируемого значения y (называется yhat).

Дисперсия: количественно определяет, насколько сильно разбросан набор данных. Математически это определяется как среднее квадратов отличий от среднего.

Гомоскедастичность: описывает ситуацию, в которой член ошибки одинаков для всех значений независимой переменной. Мы можем сказать, что это один и тот же разброс на всем пути ИЛИ мы также можем сказать, что это условие, при котором остатки имеют постоянный разброс/дисперсию для всех значений X (независимая переменная)

При этом давайте перейдем к списку предположений.

1.Линейность: должна быть линейная зависимость между независимой переменной X и зависимой переменной Y.

Как определить, выполняется ли это условие?

Одним из простых методов является построение графика рассеяния X и Y. Это позволит нам графически увидеть, существует ли линейная связь между двумя переменными. Если на графике показано, что точки на графике могут располагаться вдоль прямой линии, то мы можем сказать, что между двумя переменными существует какой-то тип линейной зависимости, и мы можем заключить, что это предположение выполняется.

2. Гомоскедастичность: мы видели выше из определения гомоскедастичности, что остатки должны иметь постоянную дисперсию на каждом уровне x.

Как определить, выполняется ли это условие?

После того, как мы подгоним нашу линию регрессии к набору точек данных, мы можем затем создать точечную диаграмму подобранных значений модели по сравнению с остатками этих подобранных значений. График должен показать нам, что остатки не увеличиваются и не распространяются, как и когда значение подобранной переменной увеличивается. Если это произойдет, мы можем сказать, что это предположение выполнено.

3.Нормальность: остатки модели должны быть нормально распределены.

Как определить, выполняется ли это условие?

У нас есть несколько тестов, которые можно использовать для проверки того, выполняется ли это предположение. Такие тесты, как Шапиро-Уилк, Д’Агостино-Пирсон и др. Однако эти тесты слишком чувствительны к большому набору данных, и, следовательно, тесты могут просто прийти к выводу, что остатки не распределены нормально, что может не соответствовать действительности. Поэтому лучше просто использовать графические методы, такие как график Q-Q, чтобы проверить это конкретное предположение. Чтобы кратко объяснить график Q-Q (краткая форма графика квантиль-квантиль), это тип графика, который используется для определения того, нормально ли распределены остатки модели. Если точки примерно образуют прямую диагональную линию, то можно сказать, что это предположение выполнено.

4. Независимость. Остатки должны быть независимыми, что означает отсутствие корреляции между последовательными остатками в наборе данных. Обычно это важно при использовании данных временных рядов.

Как определить, выполняется ли это условие?

У нас есть несколько формальных яичек, которые можно выполнить, как тест Дарбина-Ватсона. Мы также можем построить график зависимости остаточных значений от времени и увидеть, где остаточная корреляция падает с точки зрения доверительного интервала. Если они попадают в 95% доверительный интервал около нуля, мы можем сказать, что это предположение выполняется.