Всякий раз, когда вы пытаетесь провести линию по точкам данных, вы можете встретить любого из этих ребят - влиятельную точку или выбросы. Прежде чем перейти к математике, я хотел бы исследовать мирское значение. Влиятельный человек силен, доминирует и может изменить статус-кво, в то время как исключение отделяется от системы, отличаясь от всех других членов системы. Это не соответствует общей тенденции. Так что с ними делать?

Влиятельный человек прокладывает путь к полезным открытиям. Если вы не включили этого человека в свои вычисления, вы определенно ошибетесь. Но что, если этот парень не влияет на рассматриваемую текущую переменную?

Точно так же, если вы удаляете выброс только потому, что он не подтвердил ваше восприятие, вы наказываете его за то, что он отличается. Так как мы можем служить этим парням ??

Решение - кредитное плечо. Это объясняет силу влиятельных точек или выбросов. А теперь перейдем к математике.

Мы можем записать уравнение регрессии следующим образом: Y = X. β + error, где

Y, целевая переменная

X, переменные-предикторы

β, коэффициент регрессии

Мы можем записать это выражение в матричной форме.

И когда вы прогнозируете, используя это уравнение, ответы можно обозначить как y = Xb. Оценочные коэффициенты можно представить в виде

Подставляя это уравнение в предыдущее,

Если вы рассмотрите приведенное выше уравнение, многие преобразования матрицы X умножаются на y. Мы можем назвать эту матрицу матрицей Hat или влиятельной матрицей.

Итак, если мы расширим это,

Где значение h количественно определяет влияние наблюдаемого отклика на его прогнозируемое значение. Другими словами, h или плечо - это мера расстояния между значением x i-й точки данных и средним значением x для всех n точек данных. Кредитное плечо - это нет: от 0 до 1 включительно.

Теперь давайте сосредоточимся на обнаружении выбросов. Мы суммируем все значения h и находим их среднее значение. Если оно больше 3, отметьте это наблюдение как выброс. Метод шляпной матрицы - это один из способов отделения выбросов от точек влияния. Такие методы, как стьюдентизированные остатки и расстояние повара, используют матрицу шляп для того же. Так что в следующий раз, когда вы увидите выброса, вам лучше проверить, влиятельный он или нет.