Публикации по теме 'outliers'


Как обрабатывать/обнаруживать выбросы для машинного обучения?
Почему важно выявлять выбросы? Часто выбросы отбрасываются из-за их влияния на общее распределение и статистический анализ набора данных. Это, безусловно, хороший подход, если выбросы вызваны какой-либо ошибкой (ошибка измерения, повреждение данных и т. д.), однако часто источник выбросов неясен. Существует много ситуаций, когда случайные «экстремальные» события вызывают выброс, выходящий за рамки обычного распределения набора данных, но являющийся достоверным измерением, а не..

Как бороться с выбросами во временном ряду
В своей предыдущей статье об анализе временных рядов я описал методы, позволяющие предсказать, что будет дальше. Но все они опираются на одну важную предпосылку, о которой я не упомянул. Ваши данные должны быть правильными, иначе ваши модели не будут надежными и точными. Но мы живем в реальном мире, полном ошибок и неординарных ситуаций. Пандемия COVID-19 — крайний пример, который первым приходит на ум. В этой статье объясняется, как работать с такими зашумленными временными рядами...

Пять основных методов выявления выбросов в данных
Выявление выбросов важно для каждого специалиста по данным. Это помогает обнаруживать аномальные точки данных или данные, которые не соответствуют правильному шаблону. Выбросы - запутанная история данных! Но что такое выброс? Согласно определению Википедии , «выброс - это точка данных, которая значительно отличается от других наблюдений. Выброс может быть из-за изменчивости измерения или может указывать на экспериментальную ошибку; последние иногда исключаются из набора..

Используйте обнаружение и удаление выбросов для улучшения набора данных
Я всегда с нетерпением жду соревнований Kaggle на игровой площадке, потому что они дают мне возможность освоить новые навыки в области машинного обучения. На последнем конкурсе задача заключалась не в прогнозировании набора данных, а в улучшении существующего набора данных. Задача заключалась в том, чтобы сохранить все столбцы данных нетронутыми, но при необходимости строки данных можно было удалить. Соревнования на игровой площадке, о которых идет речь, можно найти здесь:..

Влиятельные точки против выбросов
Всякий раз, когда вы пытаетесь провести линию по точкам данных, вы можете встретить любого из этих ребят - влиятельную точку или выбросы. Прежде чем перейти к математике, я хотел бы исследовать мирское значение. Влиятельный человек силен, доминирует и может изменить статус-кво, в то время как исключение отделяется от системы, отличаясь от всех других членов системы. Это не соответствует общей тенденции. Так что с ними делать? Влиятельный человек прокладывает путь к полезным..

Автоматический мониторинг моделей на основе ML
Жизнь специалиста по данным в Feedzai, развертывания и обслуживания моделей машинного обучения (ML) в крупномасштабных производственных средах, постоянно порождает новые захватывающие и сложные проблемы. В этом посте мы обсудим, как мы разработали функцию продукта Feedzai для решения сложной неконтролируемой проблемы, связанной с мониторингом потоков данных. Производственные системы, такие как платформа управления рисками Feedzai, которая борется с финансовыми преступлениями в режиме..

Как выбросы влияют на статистический вывод?
Вы когда-нибудь сталкивались с выбросами в своих данных — точкой данных, которая значительно отличается от большинства других точек ? Выбросы могут иметь большое влияние на статистический вывод, который представляет собой процесс использования статистических методов для получения выводов о совокупности на основе выборки. В этом посте мы рассмотрим, как выбросы могут повлиять на статистические выводы и что мы…