Провайдеры машинного обучения
Что такое выбросы?
Выбросы - это точки данных в наборе данных, которые представляют собой аномальные наблюдения среди обычных наблюдений и могут привести к странным оценкам точности, которые могут исказить измерения, поскольку результаты не представляют фактических результатов.
Формальное определение:
Выброс - это наблюдение, которое кажется далеким и расходится с общей закономерностью в выборке. Выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приведет к увеличению времени обучения, менее точным моделям и, в конечном итоге, к худшим результатам.
Пример. Предположим, у вас есть выборка из 1000 человек, и все они должны выбрать один цвет между красным и синим.
Если 999 выберет красный, и только один человек выберет синий, я бы сказал, что тот человек, который выберет синий, является выбросом для этой выборки.
Причины появления выбросов:
· Ошибки ввода данных (человеческие ошибки)
· Ошибки измерения (приборные ошибки)
· Экспериментальные ошибки (извлечение данных или ошибки планирования / выполнения эксперимента)
· Преднамеренные (фиктивные выбросы, сделанные для проверки методов обнаружения)
· Ошибки обработки данных (ошибки манипулирования данными)
· Ошибки выборки (извлечение или смешивание данных из неправильных или различных источников)
· Естественный (не ошибка, новинки в данных)
Обнаружение выбросов:
Визуализация данных:
Для обнаружения выбросов можно использовать такие методы визуализации, как кривая распределения, прямоугольная диаграмма, гистограмма и диаграмма рассеяния.
Z-Score или анализ экстремальных значений (параметрический):
Z-оценка или стандартная оценка наблюдения - это показатель, который показывает, сколько стандартных отклонений точка данных находится от среднего значения выборки, при условии гауссовского распределения. Некоторые библиотеки Python, такие как Scipy и Sci-kit, помогают получить z-оценку любой точки данных, которую можно вычислить с помощью следующего выражения:
При вычислении z-показателя для каждой выборки в наборе данных необходимо указать порог.
Методы кластеризации:
Взаимосвязи между функциями, тенденциями и популяциями в наборе данных могут быть графически представлены с помощью методов кластеризации, таких как k-среднее и. dbscan может применяться для обнаружения выбросов в параметрических и непараметрических распределениях во многих измерениях.
Лечение аутлеров:
· Удалите выбросы, если это связано с ошибкой ввода данных, ошибкой обработки данных или очень маленькими значениями выбросов, также удалите точки, которые лежат за заданным порогом, которые мы классифицируем как выбросы.
· Если количество выбросов невелико, используйте среднее / медианное / случайное вменение для их замены.
· Используйте методы проекции, чтобы резюмировать ваши данные по двум измерениям, таким как PCA, SOM или отображение Саммона
· Если имеется значительное количество выбросов, мы должны рассматривать их отдельно в статистической модели. Один из подходов - рассматривать обе группы как две разные группы и построить индивидуальную модель для обеих групп, а затем объединить результаты.
Почему так важна обработка выбросов?
Выбросы очень важны, потому что они влияют на среднее и медиану, что, в свою очередь, влияет на ошибку (абсолютную и среднюю) в любом наборе данных. При нанесении на график ошибки вы можете получить большие отклонения, если выбросы в наборе данных не обрабатываются, что приведет к несоответствующей точности.