Следующий шаг после импорта данных

В моем предыдущем блоге я вкратце объяснил, как очистить данные, выполнить EDA (исследовательский анализ данных) и что такое базовая разработка функций.

Допустим, вы выполнили read_csv и импортировали данные. Что дальше? Следующая важная вещь, о которой нужно поговорить, - это то, как мы можем понять и проанализировать различные шаблоны в нашем наборе данных. Это поможет нам решить несколько вопросов:

a. Это поможет нам понять, сколько отсутствующих значений / повторяющихся значений в настоящее время присутствует в данных (что является проблемой для нашей модели в будущем) - объяснено в предыдущем посте

б. Определите независимые (функции / атрибуты) и зависимые переменные (цель)? Если цели нет (в большинстве реальных случаев), разберитесь, как ее создать. Это будет основано на постановке проблемы, над которой вы работаете, и я расскажу об этом с некоторыми примерами в следующих блогах.

c. Изучите общее распределение каждой функции / атрибута по отношению к нашему столбцу "Цель" и по отношению друг к другу.

d. Есть ли функции, которые можно удалить, потому что они, в конечном счете, объясняют одно и то же? (Об этом мы поговорим в следующем блоге)

Анализ распределения данных

Чтобы понять распределение данных и взаимосвязи, существует множество библиотек Python (seaborn, plotly, matplotlib, sweetviz и т. Д.), Которые упростят вашу работу. На этом этапе следует помнить о следующих вещах:

  1. Определите свои числовые и категориальные переменные. Если вы считаете, что столбец почтового индекса является числовым, потому что в нем есть числа, возможно, вам стоит вернуться назад и подробно прочитать о категориальных и числовых атрибутах! В данной статье категориальные характеристики - это те, которые включают ограниченное количество категорий, а числовые атрибуты - это те, которые содержат непрерывное действительное число. Я нашел эту ссылку очень полезной для того же! Эта часть выглядит небольшой, но позже она играет важную роль в моделировании машинного обучения.
  2. После того, как вы успешно определили различные типы переменных, пора увидеть их закономерности и распределения. Для разных типов переменных вы можете использовать разные диаграммы / объяснения, чтобы лучше понять их.
  3. Категориальные характеристики - некоторые из основных статистических данных, которые могут быть здесь полезны: подсчет уникальных значений в каждой функции, частотного распределения в каждой функции, того, как каждая категория связана с целевым столбцом и т. д. Здесь можно использовать множество графиков, я использую круговую диаграмму (для меньших категорий), гистограмму для большего количества категорий или иногда просто обычную таблицу для быстрого анализа. Это полностью зависит от того, что облегчает понимание дистрибутива!
  4. Числовые характеристики. Для числовых атрибутов, таких как заработная плата, возраст, температура и т. д., создайте гистограмму, чтобы понять их распределение. Моя основная строка кода - df [‘‹column›’]. Describe (). Это позволяет мне быстро анализировать минимальное-максимальное-среднее значение и т. Д. Атрибута, не тратя много времени на кодирование. Есть много графиков, которые вы также можете использовать для анализа числовых характеристик!
  5. Чтобы проанализировать столбец Target, просмотрите распределение данных - гистограмму / круговую диаграмму для единиц и нулей в задаче классификации или гистограмму / график разброса для проблемы регрессии (непрерывное число).

Следует иметь в виду, что EDA (и вся наука о данных) очень интуитивно понятны.

Вы можете подумать, что процесс выглядит как импорт данных - ›EDA -› разработка функций - ›моделирование -› результаты, но на самом деле процесс представляет собой цикл, и все связано друг с другом.

Таким образом, даже если вы дойдете до стадии моделирования (после преодоления всех препятствий на стадии предварительной обработки данных), вам придется вернуться, чтобы проанализировать больше шаблонов, создать / удалить больше функций и снова провести моделирование! Терпение - ключ к успеху :)

Существует множество библиотек, предоставляющих множество «причудливых» интерактивных графиков, но наряду с красивым графиком вы должны выбрать тот, который поможет вам хорошо понять данные и который также легко объяснить другим.

Теперь, когда вы дочитали статью до конца, благодарим вас за прочтение! Если вы хотите, чтобы я что-то добавил / изменил / исправил, оставьте, пожалуйста, ответ! :)