В сфере машинного обучения есть известная поговорка: «Мусор на входе, мусор на выходе». Это подчеркивает важность качества данных. Необработанные данные, особенно из реальных сценариев, часто содержат шум, пропущенные значения, дубликаты и другие недостатки. Прежде чем погрузиться в моделирование, крайне важно уточнить и предварительно обработать эти данные. В этой статье мы рассмотрим семь основных шагов предварительной обработки и очистки набора данных для проекта машинного обучения.

1. Исследовательский анализ данных (EDA)

Цель

EDA — это предварительный этап процесса анализа данных, где основное внимание уделяется получению информации о структуре и взаимосвязях внутри данных. Этот шаг жизненно важен, поскольку он закладывает основу для всего последующего анализа и моделирования. Без хорошего понимания данных мы рискуем сделать неверные предположения и решения, что приведет к созданию неэффективных или даже вводящих в заблуждение моделей.

Техники

Описательная статистика

  • Среднее значение: отображает центральную тенденцию данных, но на него могут влиять экстремальные значения или выбросы.
  • Медиана: среднее значение при сортировке данных, обеспечивающее более надежную оценку центральной тенденции, особенно при наличии выбросов.
  • Режим: представляет наиболее часто встречающееся значение, полезное для понимания наиболее распространенных закономерностей.
  • Стандартное отклонение: измеряет разброс или изменчивость данных. Более высокое значение указывает на более широкий разброс вокруг среднего значения.
  • Асимметрия и эксцесс: они дают представление о форме распределения данных. Асимметрия указывает направление хвоста распределения (влево или вправо), а эксцесс измеряет «хвостость» распределения.

Визуализации

  • Гистограммы: это гистограммы, которые представляют частотное распределение непрерывной переменной. Они могут помочь определить центральное местоположение, распространение и форму распределения данных.
  • Диаграммы рассеяния: полезны для визуализации взаимосвязей между двумя непрерывными переменными. Закономерности на диаграммах рассеяния могут указывать на корреляции или причинно-следственные связи.
  • Коробочные графики: также известны как «усы»…