В сфере машинного обучения есть известная поговорка: «Мусор на входе, мусор на выходе». Это подчеркивает важность качества данных. Необработанные данные, особенно из реальных сценариев, часто содержат шум, пропущенные значения, дубликаты и другие недостатки. Прежде чем погрузиться в моделирование, крайне важно уточнить и предварительно обработать эти данные. В этой статье мы рассмотрим семь основных шагов предварительной обработки и очистки набора данных для проекта машинного обучения.
1. Исследовательский анализ данных (EDA)
Цель
EDA — это предварительный этап процесса анализа данных, где основное внимание уделяется получению информации о структуре и взаимосвязях внутри данных. Этот шаг жизненно важен, поскольку он закладывает основу для всего последующего анализа и моделирования. Без хорошего понимания данных мы рискуем сделать неверные предположения и решения, что приведет к созданию неэффективных или даже вводящих в заблуждение моделей.
Техники
Описательная статистика
- Среднее значение: отображает центральную тенденцию данных, но на него могут влиять экстремальные значения или выбросы.
- Медиана: среднее значение при сортировке данных, обеспечивающее более надежную оценку центральной тенденции, особенно при наличии выбросов.
- Режим: представляет наиболее часто встречающееся значение, полезное для понимания наиболее распространенных закономерностей.
- Стандартное отклонение: измеряет разброс или изменчивость данных. Более высокое значение указывает на более широкий разброс вокруг среднего значения.
- Асимметрия и эксцесс: они дают представление о форме распределения данных. Асимметрия указывает направление хвоста распределения (влево или вправо), а эксцесс измеряет «хвостость» распределения.
Визуализации
- Гистограммы: это гистограммы, которые представляют частотное распределение непрерывной переменной. Они могут помочь определить центральное местоположение, распространение и форму распределения данных.
- Диаграммы рассеяния: полезны для визуализации взаимосвязей между двумя непрерывными переменными. Закономерности на диаграммах рассеяния могут указывать на корреляции или причинно-следственные связи.
- Коробочные графики: также известны как «усы»…