Оглавление:-
· Что такое выброс?
· Когда выброс опасен?
· Влияние выбросов на алгоритмы машинного обучения:-
· Как обрабатывать выбросы?
· Как обнаружить выбросы?
· Методы обнаружения и удаления выбросов:-
Что такое выброс?
Выброс — это точка данных, которая значительно отличается от большинства точек данных в наборе данных.
Когда выброс опасен?
Выбросы могут быть проблематичными/опасными, если они вызваны неверным вводом данных. Они могут искажать статистические показатели и приводить к ошибочным выводам. Например, если у вас есть набор данных с возрастом и в одной записи указано значение 300, что явно является ошибкой, разумно удалить такие выбросы, чтобы обеспечить точность анализа.
Однако в других сценариях, таких как алгоритмы обнаружения аномалий, выбросы играют решающую роль. Аномалии часто представлены выбросами, и их обнаружение является фундаментальной задачей в этих приложениях. В таких случаях удаление выбросов может оказаться нецелесообразным, поскольку оно может заблокировать способность эффективно идентифицировать и обнаруживать аномалии.
Решение удалять выбросы или нет зависит от различных факторов, таких как тип проблемы, над которой вы работаете, и конкретные требования вашего анализа. В разных ситуациях могут потребоваться разные подходы к обработке выбросов.
Влияние выбросов на алгоритмы машинного обучения: -
Влияние выбросов на алгоритмы машинного обучения зависит от конкретного используемого алгоритма. Алгоритмы на основе веса, такие как линейная регрессия, логистическая регрессия и AdaBoost, могут быть особенно чувствительны к выбросам. Эти алгоритмы направлены на минимизацию ошибки или максимизацию производительности путем присвоения веса каждой точке данных в процессе обучения.
Как обрабатывать выбросы?
- Обрезка или полное удаление выбросов. Один из способов обработки выбросов — полное удаление их из набора данных. Однако этот подход следует использовать с осторожностью, поскольку он может значительно уменьшить размер набора данных, если имеется много выбросов.
- Ограничение или Winsorizing. Этот метод включает в себя установку предела или порога на обоих концах распределения данных и замену выбросов за пределами этих ограничений ближайшими значениями, не являющимися выбросами. Этот подход помогает уменьшить влияние экстремальных значений, не отбрасывая их полностью.
- Обработка выбросов как отсутствующих значений. Другой подход состоит в том, чтобы рассматривать выбросы как отсутствующие значения, а затем обрабатывать их с помощью соответствующих методов вменения отсутствующих данных. Этот подход позволяет более гибко обрабатывать выбросы на основе конкретных характеристик набора данных.
Как обнаружить выбросы?
Для обнаружения выбросов в наборе данных существуют различные подходы: –
- Нормальное распределение. Если столбец соответствует нормальному распределению, вы можете определить выбросы, проверив, выходит ли конкретное наблюдение за диапазон среднего значения плюс или минус три стандартных отклонения.
2. Распределение с перекосом. Для распределения с перекосом можно использовать правило близости межквартильного диапазона (IQR). Рассчитайте минимальное значение как (Q1–1,5 * IQR), а максимальное значение как (Q3 + 1,5 * IQR). Любое значение, которое ниже минимального или выше максимального, считается выбросом.
3. Другие распределения (подход на основе процентилей): - В этом подходе вы можете идентифицировать выбросы, сравнивая наблюдения с определенными процентилями. Если наблюдение больше 97,5-го процентиля или меньше 2,5-го процентиля, оно считается выбросом.
Методы обнаружения и удаления выбросов:-
- Обработка Z-показателя: – этот метод предполагает, что столбец следует нормальному распределению. Z-оценка рассчитывается для каждой точки данных по формуле: Z = (Xi — среднее значение) / стандартное отклонение. Выбросы можно определить, рассматривая Z-показатели выше или ниже определенного порога. Выбросы могут быть удалены или заменены ограниченными значениями (минимум и максимум), чтобы смягчить их влияние.
Реализация:-
2. Фильтрация на основе IQR (межквартильный диапазон):- метод IQR включает вычисление диапазона между первым квартилем (Q1) и третьим квартилем (Q3). Любая точка данных ниже Q1–1,5 * IQR или выше Q3 + 1,5 * IQR считается выбросом. Эти выбросы могут быть удалены или скорректированы в пределах допустимого диапазона.
Реализация:-
3. Метод процентилей:- В этом подходе порог устанавливается на основе процентилей. Например, если порог установлен на уровне 5%, любая точка данных выше 95-го процентиля или ниже 5-го процентиля считается выбросом. Эти выбросы могут быть удалены или обработаны соответствующим образом.
Реализация:-
4. Winsorization :- Winsorization включает в себя замену выбросов значениями в определенном процентиле, а не их полное удаление. Например, выбросы можно заменить значениями 95-го или 5-го процентиля, что снижает влияние экстремальных значений, но не устраняет их полностью.
Спасибо, что присоединились ко мне в этом исследовании обнаружения и удаления выбросов. Я надеюсь, что этот блог предоставил вам полезную информацию и практические рекомендации по эффективной работе с выбросами. Помните, что выбросы следует не бояться, а понимать и управлять ими, чтобы обеспечить надежный и надежный анализ данных. Удачного изучения данных!