Оглавление:-

· Что такое выброс?
· Когда выброс опасен?
· Влияние выбросов на алгоритмы машинного обучения:-
· Как обрабатывать выбросы?
· Как обнаружить выбросы?
· Методы обнаружения и удаления выбросов:-

Что такое выброс?

Выброс — это точка данных, которая значительно отличается от большинства точек данных в наборе данных.

Когда выброс опасен?

Выбросы могут быть проблематичными/опасными, если они вызваны неверным вводом данных. Они могут искажать статистические показатели и приводить к ошибочным выводам. Например, если у вас есть набор данных с возрастом и в одной записи указано значение 300, что явно является ошибкой, разумно удалить такие выбросы, чтобы обеспечить точность анализа.

Однако в других сценариях, таких как алгоритмы обнаружения аномалий, выбросы играют решающую роль. Аномалии часто представлены выбросами, и их обнаружение является фундаментальной задачей в этих приложениях. В таких случаях удаление выбросов может оказаться нецелесообразным, поскольку оно может заблокировать способность эффективно идентифицировать и обнаруживать аномалии.

Решение удалять выбросы или нет зависит от различных факторов, таких как тип проблемы, над которой вы работаете, и конкретные требования вашего анализа. В разных ситуациях могут потребоваться разные подходы к обработке выбросов.

Влияние выбросов на алгоритмы машинного обучения: -

Влияние выбросов на алгоритмы машинного обучения зависит от конкретного используемого алгоритма. Алгоритмы на основе веса, такие как линейная регрессия, логистическая регрессия и AdaBoost, могут быть особенно чувствительны к выбросам. Эти алгоритмы направлены на минимизацию ошибки или максимизацию производительности путем присвоения веса каждой точке данных в процессе обучения.

Как обрабатывать выбросы?

  1. Обрезка или полное удаление выбросов. Один из способов обработки выбросов — полное удаление их из набора данных. Однако этот подход следует использовать с осторожностью, поскольку он может значительно уменьшить размер набора данных, если имеется много выбросов.
  2. Ограничение или Winsorizing. Этот метод включает в себя установку предела или порога на обоих концах распределения данных и замену выбросов за пределами этих ограничений ближайшими значениями, не являющимися выбросами. Этот подход помогает уменьшить влияние экстремальных значений, не отбрасывая их полностью.
  3. Обработка выбросов как отсутствующих значений. Другой подход состоит в том, чтобы рассматривать выбросы как отсутствующие значения, а затем обрабатывать их с помощью соответствующих методов вменения отсутствующих данных. Этот подход позволяет более гибко обрабатывать выбросы на основе конкретных характеристик набора данных.

Как обнаружить выбросы?

Для обнаружения выбросов в наборе данных существуют различные подходы: –

  1. Нормальное распределение. Если столбец соответствует нормальному распределению, вы можете определить выбросы, проверив, выходит ли конкретное наблюдение за диапазон среднего значения плюс или минус три стандартных отклонения.

2. Распределение с перекосом. Для распределения с перекосом можно использовать правило близости межквартильного диапазона (IQR). Рассчитайте минимальное значение как (Q1–1,5 * IQR), а максимальное значение как (Q3 + 1,5 * IQR). Любое значение, которое ниже минимального или выше максимального, считается выбросом.

3. Другие распределения (подход на основе процентилей): - В этом подходе вы можете идентифицировать выбросы, сравнивая наблюдения с определенными процентилями. Если наблюдение больше 97,5-го процентиля или меньше 2,5-го процентиля, оно считается выбросом.

Методы обнаружения и удаления выбросов:-

  1. Обработка Z-показателя: – этот метод предполагает, что столбец следует нормальному распределению. Z-оценка рассчитывается для каждой точки данных по формуле: Z = (Xi — среднее значение) / стандартное отклонение. Выбросы можно определить, рассматривая Z-показатели выше или ниже определенного порога. Выбросы могут быть удалены или заменены ограниченными значениями (минимум и максимум), чтобы смягчить их влияние.

Реализация:-



2. Фильтрация на основе IQR (межквартильный диапазон):- метод IQR включает вычисление диапазона между первым квартилем (Q1) и третьим квартилем (Q3). Любая точка данных ниже Q1–1,5 * IQR или выше Q3 + 1,5 * IQR считается выбросом. Эти выбросы могут быть удалены или скорректированы в пределах допустимого диапазона.

Реализация:-



3. Метод процентилей:- В этом подходе порог устанавливается на основе процентилей. Например, если порог установлен на уровне 5%, любая точка данных выше 95-го процентиля или ниже 5-го процентиля считается выбросом. Эти выбросы могут быть удалены или обработаны соответствующим образом.

Реализация:-



4. Winsorization :- Winsorization включает в себя замену выбросов значениями в определенном процентиле, а не их полное удаление. Например, выбросы можно заменить значениями 95-го или 5-го процентиля, что снижает влияние экстремальных значений, но не устраняет их полностью.

Спасибо, что присоединились ко мне в этом исследовании обнаружения и удаления выбросов. Я надеюсь, что этот блог предоставил вам полезную информацию и практические рекомендации по эффективной работе с выбросами. Помните, что выбросы следует не бояться, а понимать и управлять ими, чтобы обеспечить надежный и надежный анализ данных. Удачного изучения данных!