Почему важно выявлять выбросы?

Часто выбросы отбрасываются из-за их влияния на общее распределение и статистический анализ набора данных. Это, безусловно, хороший подход, если выбросы вызваны какой-либо ошибкой (ошибка измерения, повреждение данных и т. д.), однако часто источник выбросов неясен. Существует много ситуаций, когда случайные «экстремальные» события вызывают выброс, выходящий за рамки обычного распределения набора данных, но являющийся достоверным измерением, а не вызванный ошибкой. В этих ситуациях выбор того, как поступать с выбросами, не всегда очевиден, и этот выбор оказывает значительное влияние на результаты любого статистического анализа набора данных. Решение о том, как поступать с выбросами, зависит от целей и контекста исследования и должно быть подробно изложено в любом объяснении методологии.

Что такое аутсайдер?

Выброс — это любая точка данных, которая заметно отличается от остальных ваших точек данных. Как правило, выбросы относятся к одной из двух категорий: ошибка в данных или настоящий выброс. Ошибка в данных может быть такой же простой, как ввод 10000, а не 100,00, вес человека как 0 или 200, а второй тип, настоящий выброс, может быть чем-то вроде зарплаты генерального директора в наборе данных прогнозирования заработной платы.

Разделю тему на две части.

1. Как обнаружить выбросы.

2. Как обрабатывать выбросы.

  1. Как обнаружить выбросы: — мы можем найти выбросы, используя визуализацию данных/графические методы и статистические методы. В графических методах мы могли бы использовать точечную диаграмму и блочную диаграмму. В статистических методах мы можем использовать ограничение процентилей, IQR (межквартильный диапазон) и стандартное отклонение.

Графические методы

График рассеяния: — мы строим график рассеивания, и любые точки данных, находящиеся далеко от генеральной совокупности, можно рассматривать как выбросы. Точки данных, выделенные красным цветом, можно рассматривать как выбросы.

Коробчатая диаграмма: — при просмотре блочной диаграммы выброс определяется как точка данных, расположенная за границами («усами») блочной диаграммы (например, за пределами 1,5-кратного межквартильного диапазона выше верхнего квартиля). и ниже нижнего квартиля). На рисунке ниже точки данных над внутренними ограждениями являются возможными выбросами.

Статистические методы

Ограничение процентиля: любые точки данных, меньшие значения в первом процентиле или превышающие значение в 99-м процентиле, могут быть возможными выбросами.

IQR (межквартильный диапазон): — если значение выше, чем 1,5*IQR выше верхнего квартиля (Q3), значение будет считаться выбросом. Точно так же, если значение меньше, чем 1,5 * IQR ниже нижнего квартиля (Q1), значение будет рассматриваться как выброс.

IQR = Q3 -Q1

Нижняя граница допустимого диапазона = Q1–1,5* (Q3-Q1)

Верхний предел допустимого диапазона = Q3 + 1,5* (Q3-Q1)

Метод стандартного отклонения: — если значение выше или ниже на три стандартных отклонения от среднего значения, считается выбросом. Он основан на характеристиках нормального распределения, для которого 99,87% данных находятся в этом диапазоне.

2. Как обрабатывать выбросы: — большинство параметрических статистических данных, таких как средние значения, стандартные отклонения и корреляции, а также любая статистика, основанная на них, очень чувствительны к выбросам. А поскольку допущения обычных статистических процедур, таких как линейная регрессия и дисперсионный анализ, также основаны на этих статистических данных, выбросы могут серьезно испортить ваш анализ. То, насколько выброс влияет на ваш анализ, зависит от нескольких факторов. Одним из факторов является размер набора данных. В большом наборе данных каждая отдельная точка имеет меньший вес, поэтому выброс вызывает меньше беспокойства, чем та же точка данных в меньшем наборе данных. Еще одно соображение заключается в том, «насколько» может быть выбросом точка — насколько далеко от остальной части вашего набора данных находится одна точка. Точка, которая в десять раз больше вашей верхней границы, причинит больше вреда, чем точка, которая в два раза больше. Теперь у нас есть два варианта: либо удалить их, либо выполнить преобразование данных, либо присвоить выбросам новое значение. Сначала запустите анализ как с выбросами, так и без них и примите решение, какое действие выполнять.

Когда удалять выбросы: -

· Вы знаете, что это неправильно. Например, если у вас есть хорошее представление о том, в какой диапазон должны попадать данные, например возраст людей, вы можете безопасно отбрасывать значения, выходящие за пределы этого диапазона.

· У вас много данных, а выбросов мало, поэтому ваша выборка не пострадает, если выпадет сомнительный выброс.

· В случае с зарплатой генерального директора или другим настоящим выбросом иногда лучше полностью удалить эту запись из набора данных, чтобы этот человек или событие не искажали ваш анализ.

· Если выброс создает отношение, которого в противном случае не было бы, мы можем безопасно отбросить эти выбросы.

Когда не следует отбрасывать выбросы: — Выбросов много. Выбросы редки по определению. Если, например, 30% ваших данных являются выбросами, то это на самом деле означает, что с вашими данными происходит что-то интересное, что вам нужно изучить подробнее.

· Ограничение данных о выбросах. Еще один способ справиться с истинными выбросами — ограничить их (Winsorization). Например, если вы используете доход, вы можете обнаружить, что люди с более высоким доходом ведут себя так же, как и люди с более низким доходом. Мы можем использовать ограничение процентиля. Значения, которые меньше значения 1-го процентиля, заменяются значением 1-го процентиля, а значения, превышающие значение 99-го процентиля, заменяются значением 99-го процентиля. Винсоризация на 5-м и 95-м процентилях также распространена.

· Назначить новое значение. Если кажется, что выброс произошел из-за ошибки в ваших данных, вы пытаетесь подставить значение. Общие методы вменения включают использование среднего или медианы переменной на основе распределения данных или использование регрессионной модели для прогнозирования отсутствующего значения.

· Попробуйте преобразование, преобразование квадратного корня и логарифмическое преобразование (часто предпочтительнее, когда переменная отклика следует экспоненциальному распределению или искажена вправо) оба получают большие числа. Это может улучшить работу предположений, если выброс является зависимой переменной, и может уменьшить влияние одной точки, если выброс является независимой переменной.

· Другой вариант — попробовать другую модель. Модели на основе деревьев, такие как случайные леса и методы повышения градиента, менее подвержены влиянию выбросов.