Провайдеры машинного обучения

Что такое выбросы?

Выбросы - это точки данных в наборе данных, которые представляют собой аномальные наблюдения среди обычных наблюдений и могут привести к странным оценкам точности, которые могут исказить измерения, поскольку результаты не представляют фактических результатов.

Формальное определение:

Выброс - это наблюдение, которое кажется далеким и расходится с общей закономерностью в выборке. Выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приведет к увеличению времени обучения, менее точным моделям и, в конечном итоге, к худшим результатам.

Пример. Предположим, у вас есть выборка из 1000 человек, и все они должны выбрать один цвет между красным и синим.

Если 999 выберет красный, и только один человек выберет синий, я бы сказал, что тот человек, который выберет синий, является выбросом для этой выборки.

Причины появления выбросов:

· Ошибки ввода данных (человеческие ошибки)

· Ошибки измерения (приборные ошибки)

· Экспериментальные ошибки (извлечение данных или ошибки планирования / выполнения эксперимента)

· Преднамеренные (фиктивные выбросы, сделанные для проверки методов обнаружения)

· Ошибки обработки данных (ошибки манипулирования данными)

· Ошибки выборки (извлечение или смешивание данных из неправильных или различных источников)

· Естественный (не ошибка, новинки в данных)

Обнаружение выбросов:

Визуализация данных:

Для обнаружения выбросов можно использовать такие методы визуализации, как кривая распределения, прямоугольная диаграмма, гистограмма и диаграмма рассеяния.

Z-Score или анализ экстремальных значений (параметрический):

Z-оценка или стандартная оценка наблюдения - это показатель, который показывает, сколько стандартных отклонений точка данных находится от среднего значения выборки, при условии гауссовского распределения. Некоторые библиотеки Python, такие как Scipy и Sci-kit, помогают получить z-оценку любой точки данных, которую можно вычислить с помощью следующего выражения:

При вычислении z-показателя для каждой выборки в наборе данных необходимо указать порог.

Методы кластеризации:

Взаимосвязи между функциями, тенденциями и популяциями в наборе данных могут быть графически представлены с помощью методов кластеризации, таких как k-среднее и. dbscan может применяться для обнаружения выбросов в параметрических и непараметрических распределениях во многих измерениях.

Лечение аутлеров:

· Удалите выбросы, если это связано с ошибкой ввода данных, ошибкой обработки данных или очень маленькими значениями выбросов, также удалите точки, которые лежат за заданным порогом, которые мы классифицируем как выбросы.

· Если количество выбросов невелико, используйте среднее / медианное / случайное вменение для их замены.

· Используйте методы проекции, чтобы резюмировать ваши данные по двум измерениям, таким как PCA, SOM или отображение Саммона

· Если имеется значительное количество выбросов, мы должны рассматривать их отдельно в статистической модели. Один из подходов - рассматривать обе группы как две разные группы и построить индивидуальную модель для обеих групп, а затем объединить результаты.

Почему так важна обработка выбросов?

Выбросы очень важны, потому что они влияют на среднее и медиану, что, в свою очередь, влияет на ошибку (абсолютную и среднюю) в любом наборе данных. При нанесении на график ошибки вы можете получить большие отклонения, если выбросы в наборе данных не обрабатываются, что приведет к несоответствующей точности.