Наука о данных

The Outlier Story — кредитное плечо и точка влияния в линейной регрессии

Для понимания любых выбросов и необычных наблюдений в линейной регрессии важно понимать формальное и базовое определение линейной регрессии.

«Линейная регрессия — это линейный подход к моделированию взаимосвязи между зависимой переменной отклика и одной или несколькими независимыми/объясняющими переменными. Он считается одним из наиболее часто используемых алгоритмов для прогнозирования непрерывных значений в методах контролируемого машинного обучения».

Уравнение линейной регрессии (изображающее подобранную линию регрессии) может быть представлено как:

Yi = β0 + β1X + ε

Где β0 — термин перехвата,

β1 – это наклон (который также является коэффициентом регрессии) между Y (зависимая переменная/переменная ответа) и X (независимая переменная),

ε (произносится как эпсилон) — это термин ошибки, который отражает ошибки измерения Y.

Yiпредставляет прогнозируемое значение Y. Это значение Y, полученное с помощью линии регрессии.

Ȳ (Y — полоса) представляет собой среднее значение точек данных переменной Y, т. е. переменной ответа.

X̅ (X — столбец) представляет собой среднее значение точек данных переменной X, т. е. независимой переменной.

Остаток измеряет расстояние по вертикали между фактическим значением Y и прогнозируемым значением Y от линии регрессии.

Другими словами, он измеряет расстояние по вертикали между фактической точкой данных и прогнозируемой точкой на линии.

После такого большого введения в линейную регрессию давайте перейдем к необычным наблюдениям.

Необычные наблюдения в линейной регрессии обычно считаются выбросами.

Выброс определяется как точка данных, которая находится очень далеко от остальных данных, т. е. необычное наблюдение в отношении либо значения x, либо значения y.

Это наблюдение, для которого обычно невязка велика по величине по сравнению с другими наблюдениями в наборе данных. Это означает наблюдение, для которого Y (фактическое значение) далеко от значения, предсказанного моделью, т. Е. Yi.

Проще говоря, можно сказать, что точки данных, которые находятся далеко от линии регрессии соответствия, являются выбросом.

Выбросы плохо соответствуют модели и могут оказывать или не оказывать большое влияние на модель.

Например, — На приведенном ниже рисунке все точки, обведенные желтым, являются выбросами.

А как быть с точками, обведенными зеленым. Они также далеки от других наблюдений в наборе данных, но являются ли они выбросами?

Нет, они не являются выбросами в строгом смысле.

Почему это так?

Все ли выбросы вызывают проблемы?

Все ли выбросы существенно влияют на результаты регрессии?

Это мы будем понимать дальше.

На самом деле, когда мы занимаемся регрессионным моделированием, нас не всегда заботит то, что несколько точек данных находятся далеко от остальных точек данных, пока эти точки данных не нарушат шаблон или не будут следовать общей тенденции остальных данных, т.е. , в значительной степени изменяет наклон (линию регрессии) и коэффициент регрессии.

Коэффициент регрессии — это то же самое, что наклон линии регрессии соответствия.

Чтобы понять проблемные выбросы, давайте разберемся еще с двумя важными терминами.

1. Точка рычага

2. Точка влияния

Определим точку плеча формально.

Точка рычага – это показатель того, насколько далеко значения X (значения независимых переменных) в наборе данных отличаются от значений других наблюдений. Точки с высоким кредитным плечом являются выбросами по отношению к независимым переменным.

Следовательно, точка кредитного плеча может быть или не быть выбросом и зависит только от значений x, а не от значений y.

Точка рычага с небольшим остатком обычно не влияет на наклон, поскольку она следует линейному тренду исходных данных и не считается выбросом.

Существует два типа точек опоры.

1. Высокая точка воздействия

Свойства высокой точки рычага

а. Это может повлиять на линию регрессии соответствия, иногда очень сильно, если невязки высоки.

б. Он может иметь или не иметь большой остаток.

2. Низкая точка воздействия

Свойства точки низкого рычага

а. Это не слишком сильно влияет на линию регрессии соответствия.

б. Обычно имеет высокий остаток.

Например, — На приведенном ниже рисунке точки, обведенные зеленым цветом, представляют собой точки с низким кредитным плечом, а точки, обведенные желтым цветом, — это точки с высоким кредитным плечом.

Определим Влиятельную точку формально.

Влиятельная точка — это выброс, сильно влияющий на наклон линии регрессии и относительно сильно влияющий на прогнозы регрессионной модели.

Хотя точка влияния обычно имеет высокий левередж, она не обязательно является точкой влияния.

Например, — На приведенном ниже рисунке точки, обведенные синим цветом, являются очень влиятельными точками.

Позвольте мне представить это в таблице для ясной визуализации.

Теперь, я думаю, всем вам станет ясно, почему точки, обведенные зеленым на рисунке 1, не являются выбросом.

Это потому, что хотя они и далеки от остальных наблюдений, но близки к линии регрессии соответствия с низкими остатками. Следовательно, они не влияют в значительной степени на коэффициенты наклона и регрессии, а также на прогнозы и, следовательно, не помечаются как выбросы.

Резюмируя:

Низкое кредитное плечо, большой остаток —> малое влияние (в определенной степени влияет на наклон линии регрессии соответствия вверх) и является выбросом.

Высокое кредитное плечо, небольшой остаток —> небольшое влияние (влияет на наклон линии регрессии соответствия в минимальной степени) и не является выбросом.

Высокое кредитное плечо, большой остаток —> большое влияние (в значительной степени влияет на наклон, линию регрессии соответствия и дальнейшие прогнозы модели) и является выбросом.

Можно сказать, что выбросы, оказывающие большое влияние, в максимальной степени влияют на наклон линии регрессии и прогнозы регрессионной модели, и о них следует тщательно заботиться при разработке регрессионных моделей.

Надеюсь, это даст вам четкое представление о выбросах, а также о рычагах и влиятельных точках в линейной регрессии.

Вы можете подписаться на меня как на Medium, так и на

LinkedIn: Суприя Гош

И Твиттер: @isupriyaghosh