Пять основных методов выявления выбросов в данных

Выявление выбросов важно для каждого специалиста по данным. Это помогает обнаруживать аномальные точки данных или данные, которые не соответствуют правильному шаблону.

Выбросы - запутанная история данных!

Но что такое выброс?

Согласно определению Википедии, «выброс - это точка данных, которая значительно отличается от других наблюдений. Выброс может быть из-за изменчивости измерения или может указывать на экспериментальную ошибку; последние иногда исключаются из набора данных. Выбросы могут вызвать серьезные проблемы при статистическом анализе ».

Выбросы также можно назвать наблюдениями, которые не похожи ни на какие другие наблюдения. Это определенные точки данных, которые не принадлежат определенной группе населения. Такие наблюдения часто ненормальны и не соответствуют другим ценностям. Выброс - это данные, которые по своей сути отличаются от других данных, также называемые аномалиями.

Например,

[24, 27, 19, 28, 1300, 20, 18]

Вы можете легко определить выброс по приведенным выше цифрам, не так ли? Что ж, если это просто набор чисел, определить выбросы может быть легко, но сложно, когда существуют тысячи многомерных показателей. В таких случаях вам нужно будет оптимизировать методы обнаружения аномалий.

Выброс влияет на эффективность каждой модели, тем самым влияя на производительность модели. Это одна из основных причин, по которой очень важно удалять выбросы или аномалии в наборе данных.

👉 Аномалии / выбросы, нас должно волновать?

Что ж, с быстрым темпом роста данных, это заставило нас переосмыслить то, как мы можем подходить к этим аномалиям. С распространением устройств Интернета вещей (IoT) это станет еще более сложной задачей.

Вот пример: большинство людей используют умные часы, чтобы отслеживать свое сердцебиение каждую секунду. Если есть способ обнаружить аномалию в данных, полученных при сердцебиении, его можно легко использовать для прогнозирования сердечных заболеваний.

В дорожном движении их можно было использовать для предотвращения аварий.

Есть ли способ справиться с выбросами в Python?

Да, в Python есть способ обнаружить выбросы.

На первом этапе вам нужно импортировать библиотеку (NumPy и Pandas) - две модели, которые имеют решающее значение на этом этапе. Затем следует создание DataFrame. Фрейм данных должен быть пустым с именем «xyz». Как только он будет создан, вы можете добавить к нему функцию и значения.

Для обнаружения выбросов в Python необходимо знать такие методы, как:

· Изменение масштаба данных

· Выделение выбросов

· Удаление выбросов

Ну, это были методы обнаружения выбросов в Python.

Давайте углубимся и исследуем другие распространенные и простейшие методы, используемые для выявления выбросов в наборе данных.

👉 Коробчатые диаграммы

Коробчатая диаграмма - это графическое представление числовых данных, представленных в виде квартилей или квантилей. Это простой, но очень эффективный метод обнаружения любых аномалий или выбросов.

Возьмите нижний и верхний усы в качестве границы распределения данных. Теперь любые данные, которые видны ниже нижнего или верхнего усов, считаются аномалией.

Анатомия коробчатых диаграмм основывается на концепции межквартильного размаха (IQR), что позволяет строить коробчатые диаграммы. IQR имеет большое значение для выявления выбросов.

👉 Надежный лес случайной вырубки

Технический гигант Amazon использует алгоритм «Robust Random Cut Forest» для обнаружения выброса или любого типа аномалии.

Алгоритм работает, проходя оценку аномалий. Индикация низкого балла означает, что точка данных находится в нормальном состоянии. Однако, если оценка находится на более высоком уровне, это указывает на наличие аномалии.

Низкий и высокий балл действительно зависит от приложения, но обычная практика всегда предполагает, что балл, превышающий три стандартных отклонения от среднего балла, определенно является аномалией. Интересным фактом об этом алгоритме является то, что он хорошо работает даже с данными большого размера, автономными данными и потоковыми данными в реальном времени.

👉 Изолированный лес

Isolation Forest использует неконтролируемый алгоритм машинного обучения, принадлежащий к семейству ансамблевых деревьев решений.

Методы, используемые в этом подходе, отличаются от других методов. Большинство методов сначала пытались идентифицировать нормальную область данных, а затем продвигались к идентификации всего, что казалось неуместным.

Однако с изолированным лесом дело обстоит иначе.

Используемый здесь подход сначала разделяет аномалии, а не профилирует нормальные области. Дополнительным преимуществом является то, что этот метод лучше всего работает с данными большого размера и доказал свою высокую эффективность.

👉 Стандартное отклонение

Возможно, все мы знаем, как работает стандартное отклонение. Например, когда распределение данных является нормальным, считается, что около 68 процентов значения данных находится в пределах одного стандартного отклонения от среднего, в то время как 95 процентов находятся в пределах двух стандартных отклонений, а 99,7 процента - в пределах трех стандартных отклонений.

Таким образом, имея любую точку данных, которая в три раза превышает стандартное отклонение, эти точки могут быть идентифицированы как выбросы.

👉 Кластеризация DBScan

Само название метода означает, что в этом подходе используется алгоритм кластеризации. Алгоритм используется для выявления выбросов с использованием метода обнаружения аномалий на основе плотности. Этот метод идеален как для одно-, так и для многомерных данных.

Некоторые из других алгоритмов кластеризации, используемых для обнаружения аномалий, включают такие имена, как иерархическая кластеризация и k-средние.

DBScan строго следует трем ключевым концепциям:

Основные точки - чтобы понять эту концепцию, вам сначала необходимо знать гиперпараметры, используемые при определении задания DBScan, например, [HP] min_samples (для минимального количества основных точек, необходимых для формирования кластера) и [HP] eps. eps (для максимального расстояния между двумя образцами, необходимого для формирования кластера).
Граничные точки - кластер почти такой же, как и основные точки, но намного дальше от центра кластера.
Точки шума - любую точку данных, не принадлежащую ни к какому типу кластера, можно назвать точками шума. Это может быть как аномальным, так и неаномальным, однако крайне необходимы дальнейшие исследования.

Выбросы указывают на неверные данные. Следовательно, чтобы вы могли получить практическую информацию и сделать верный прогноз, обнаружение аномалий и выбросов имеет решающее значение для каждого специалиста по данным. Плохие данные могут испортить ваш прогноз.