Как обрабатывать выбросы в данных?

Давайте сначала разберемся, что такое выброс и как его обнаружить. Проще говоря, аутсайдер — это человек, который выделяется из большой толпы. В статистике выброс — это любая точка данных, которая значительно отличается от остальных ваших точек данных. Они важны, потому что могут изменить результат нашего анализа данных. Поэтому мы должны научиться обрабатывать выбросы в данных.

Выбросы — это экстремальные значения. Если наш набор данных имеет чрезвычайно высокие или чрезвычайно низкие значения, то эти точки данных называются выбросами. Он указывает значения либо с сильным хвостом, либо с сильным перекосом. Это может произойти из-за изменчивости измерений или из-за экспериментальной ошибки.

Выбросы указывают на то, что распределение имеет сильно выраженный хвост или сильно асимметрично.

Если значение очень высокое, намного выходящее за пределы прогнозируемого диапазона, распределение сдвинется вправо, делая кривую правой или положительно скошенной. Если значение очень низкое, распределение сдвинется влево, в результате чего кривая будет влево или отрицательно скошена.

Выбросы делятся на три вида:

Коллективные выбросы. Это группа необычных результатов, которые выглядят похожими друг на друга из-за их сопоставимой ненормальной ценности. На рисунках временных рядов это может выглядеть как типичные пики и спады, происходящие за пределами периода времени, когда сезонная последовательность является нормальной.
Контекстные выбросы. Точка данных называется контекстным выбросом, если ее значение резко отличается от остальных точек данных в том же контексте.
Коллективные выбросы. Это группа необычных результатов, которые выглядят похожими друг на друга из-за их сопоставимой ненормальной ценности.

Как обрабатывать выбросы в данных

Чтобы продемонстрировать, я создал набор данных только с одним столбцом (возраст). Я включил два значения: одно высокое (100), а другое низкое (-50).

Sample Dataset: 10,12,34,25,20,22,30,33,40,100,-50

Коробка Сюжет

Блочная диаграмма — это графическое изображение распределения статистики. Он использует медиану, а также нижний и верхний квартили. Коробчатая диаграмма может легко определить необычную точку в наборе данных, поскольку любая точка выше или ниже усов является аномалией. Иногда его называют одномерным методом.

Блочная диаграмма — это статистический график для визуализации описательной статистики (Среднее, Медиана, Q1, Q2, IQR, минимум, максимум). Я буду использовать программное обеспечение R.

#First install "readxl" package to read excel file into R
install.packages("readxl")
#load readxl package 
library(readxl)
my_data <- read_excel("Outlier.xlsx")
boxplot(my_data)

Гистограмма

Гистограмма, в которой большая часть информации находится на одной стороне, а несколько наблюдений кажутся далекими от основной группы, называется выбросами. Выбросы наблюдений.

Гистограмма также обнаруживает выбросы. Код R для генерации гистограммы.

Age<- my_data$Age hist(Age,xlab = “Age”,col=”darkmagenta”, xlim = c(-60,100), ylim = c(0,10),main=”Outlier Detection using Histogram”)

Межквартильный диапазон (IQR)

Правило межквартильного диапазона важно для выявления выбросов. Межквартильный балл, или средние 50%, или H-разброс являются мерой статистической дисперсии, равной разнице между 75-м процентилем и 25-м процентилем, т. е. между третьим квартилем (Q3) и первым квартилем (Q1).

IQR=Q3-Q1

Мы идентифицируем выбросы как значения меньше, чем Q1 - (1,5 * IQR) или больше, чем Q3 + (1,5 * IQR)

#Install "readxl" package
install.packages("readxl")
#load readxl package 
library(readxl) 
#Read the excel file 
my_data <- read_excel("Outlier.xlsx") 
#summary() computes summary statistics of data and model objects.
summary(my_data) 
      Age
 Min. :-50.00
 1st Qu.: 16.00
 Median : 25.00
 Mean : 25.09 
 3rd Qu.: 33.50 
 Max. :100.00 
#Assigning Values 
 Q1<-16.00 
 Q3<-33.50 
#Calculating IQR 
 IQR<-Q3-Q1 
 IQR 
 [1] 17.5 
 Lower=Q1-(1.5*IQR)
 Upper=Q1+(1.5*IQR) 
 Lower
 [1] -10.25
 Upper 
 [1] 42.25 
#Any number smaller than this is an outlier        my_data[my_data$Age<Lower,] -50 
#Any number larger than this is considered an outlier my_data[my_data$Age>Upper,] 100

Среднеквадратичное отклонение

Мера того, как значения в наборе данных изменяются или отклоняются от среднего значения.

Мы определяем выбросы как значения меньше (Среднее — 3*SD) или больше (Среднее + 3*SD).

Код R для расчета стандартного отклонения

#load the readxl library
library(readxl) 
#Read the excel file 
my_data <- read_excel(“Outlier.xlsx”) 
#summary() computes summary statistics of data and model objects. summary(my_data) 
    Age 
Min. :-50.00
1st Qu.: 16.00
Median : 25.00 
Mean : 25.09 
3rd Qu.: 33.50 
Max. :100.00 
#calculates the standard deviation 
sd(my_data$Age) 
[1] 34.74609 
#Values greater than Mean + 3*sd are considered as outlier my_data[my_data$Age > Mean + (3*sd),]
 100 
#Values less than Mean — 3*sd are considered as outlier my_data[my_data$Age < Mean — (3*sd),]
 -50

Точечная диаграмма

Точечная диаграмма помогает определить степень корреляции между двумя числовыми переменными, например, простая линейная зависимость между X и Y. Выброс — это любое наблюдение, отличающееся от обычного.

Модели машинного обучения и выбросы

В машинном обучении выбросы обычно искажают интерпретацию данных в целом, что приводит к менее точным моделям и неверным результатам в процессе обучения. Хотя не все модели машинного обучения чувствительны к выбросам. Модели машинного обучения чувствительны к выбросам, перечисленным ниже.

Линейная регрессия
Логистическая регрессия
K-средние
Иерархический
Анализ главных компонентов

Как обрабатывать выбросы?

Вычисление ошибки Минковского может уменьшить влияние выбросов на модель.
Полное удаление этих записей из набора данных, чтобы уменьшить асимметрию, возникающую во время анализа.
Присвоение новых значений таким записям может привести к благоприятным результатам.
Преобразование значений может устранить выбросы. Масштабирование, логарифмическое преобразование, нормализация кубического корня и другие методы устраняют выбросы.
Вменение выбросов и обработка их отдельно.

Вывод

Не все выбросы вызывают проблемы в наборе данных. Например, при обнаружении мошенничества с кредитными картами считается важным замечать любую необычную транзакцию, которая имела место, а при прогнозировании запасов необходимо учитывать любой необычный всплеск. Следовательно, очень важно понять набор данных и постановку задачи, прежде чем мы приступим к работе с выбросами.

Если вы нашли эту статью полезной, не стесняйтесь отправить ее кому-нибудь еще. Если вы уже не миллионер, то смело купите мне вместо чая. :)