Интуиция, лежащая в основе коллинеарности в моделях линейной регрессии

Графическая интерпретация

Линейная регрессия, вероятно, самый популярный алгоритм в машинном обучении, когда задача прогнозирует продолжение, количественную переменную. Общая линейная регрессия в одномерном случае принимает следующий вид:

Бета-коэффициенты - это неизвестные параметры, до которых нам известна параметрическая форма этой модели, и они являются целью нашей оценки. Линейная регрессия решает эту задачу с помощью метода, называемого обыкновенными наименьшими квадратами (короче, OLS). Метод направлен на оценку значения этих коэффициентов таким образом, чтобы остаточная сумма квадратов (RSS) была минимальной.

Теперь для каждого из наших коэффициентов мы можем оценить некоторую статистику, чтобы проверить, являются ли наши бета-версии статистически значимыми (я не останавливаюсь на том, как вычислять эту статистику в этой статье, но если вас интересует здесь, там очень хороший источник). Поскольку тестовая статистика, используемая для проверки гипотезы, представляет собой соотношение, знаменателем которого является стандартная ошибка нашей бета-оценки, из этого следует, что чем выше стандартная ошибка (что означает, чем выше неопределенность оценки), тем ниже t-статистика, чем выше p-значение (если вы новичок в проверке гипотез, p-значениях, значимости, вы можете прочитать мою бывшую статью здесь), что приводит к тому, что нельзя отвергать нуль бета = 0.

Я не буду углубляться в математику, но я хочу дать вам очень интуитивную графическую интерпретацию:

По сути, наш регрессор X должен рассказать нам что-то о Y в нашей структуре регрессии. Вся приведенная выше статистика отражает, насколько хорошо эта информация передается. В частности, наш регрессор X получает «кредит» за свою работу из зеленой области, которая представляет собой перекрытие двух переменных Y и X. Таким образом, чем больше зеленая область, тем лучше X в качестве предиктора, тем лучше будет статистика, связанная с его бета-коэффициентом (а именно, он, вероятно, будет статистически отличаться от нуля).

Пока мы рассмотрели только один регрессор. Но что будет, если у нас будет такая модель?

В этом случае у нас есть два регрессора, которые мы должны принять во внимание, поэтому будут оцениваться два бета-коэффициента. Все сказанное выше относительно способа оценки (то есть OLS) справедливо и для многомерного случая. Однако мы можем столкнуться с некоторыми проблемами в зависимости от соотношения между регрессорами.

Теперь рассмотрим следующую ситуацию:

В этом случае две ковариаты рассказывают две разные истории о Y, следовательно, их бета-коэффициенты точно отражают их вклад в обнаружение Y. Таким образом, вся статистика первого коэффициента будет получена из зеленой области; вся статистика второго коэффициента будет засчитана из желтой области.

Но что произойдет, если X1 и X2, помимо того, что сообщают что-то индивидуально конкретное о Y, также сообщают что-то одинаковое для обоих?

Как видите, красная область отражает часть информации, относящуюся к Y, которую предоставляют как X1, так и X2, и, как вы могли догадаться, это отчасти избыточно. Обычно это происходит, когда два (или более) регрессора сильно коррелированы, что приводит к проблеме коллинеарности. Это означает, что X1 и X2 имеют тенденцию двигаться вместе, и в некотором смысле они объясняют Y одними и теми же словами.

Если это так, мы должны быть осторожны с интерпретацией статистики. Действительно, наблюдая за изображением выше, мы видим, что все цветные области, зеленый, желтый и красный, способствуют объяснению Y. Однако, по определению, бета-коэффициент регрессора k отражает вклад в объяснение Y, исходящий исключительно от этого регрессора. Отныне бета-коэффициент для X1 будет учитываться с точки зрения оценочной статистики только для зеленой части, которая меньше, чем в одномерном случае. Точно так же второй коэффициент бета будет засчитан только для желтой области. Красная область, предоставленная обоими, не будет учитываться ни beta_1, ни beta_2 с точки зрения t-статистики.

В результате мы можем закончить проверку гипотез на предмет статистической значимости, когда значения p высоки, что приведет к тому, что мы не будем отклонять H0, когда оно на самом деле ложно, что приведет к снижению мощности теста (то есть вероятности отклонение H0, когда оно ложно).

Кроме того, это может быть актуальной проблемой также в случае, если мы хотим выполнить пошаговые методы для выбора модели. А именно, если мы полагаемся на пошаговый выбор вперед, порядок, в котором мы вставляем один регрессор за раз, существенно влияет на окончательные оценки бета-коэффициентов. А именно, глядя на приведенный выше пример, если мы сначала добавим X1 к модели, коэффициент бета получит кредит для зеленой + красной области. Затем, если мы добавим X2, он получит кредит только из желтой области, что, вероятно, приведет к тому, что он не будет статистически значимым. Однако это несправедливо, поскольку X1 не предоставляет больший объем информации, чем X2: у него был только шанс быть вставленным в модель первым.

Заключительные соображения

Коллинеарность, вероятно, сделает вашу модель менее надежной, поэтому нам придется с ней иметь дело. Одним из способов решения проблемы может быть проверка корреляционной матрицы ковариат, нахождение тех, которые кажутся сильно коррелированными, и отбрасывание одной из них, полагаясь на тот факт, что основная часть информации, которую он должен был предоставить, уже содержится в коррелированных ковариант. В частности, это отличный подход, если две ковариаты демонстрируют «идеальную коллинеарность». В качестве альтернативы, если кто-то не хочет рисковать потерять релевантную информацию, линейная комбинация «затронутых» ковариат может привести к лучшим результатам.