Следующий шаг после импорта данных
В моем предыдущем блоге я вкратце объяснил, как очистить данные, выполнить EDA (исследовательский анализ данных) и что такое базовая разработка функций.
Допустим, вы выполнили read_csv и импортировали данные. Что дальше? Следующая важная вещь, о которой нужно поговорить, - это то, как мы можем понять и проанализировать различные шаблоны в нашем наборе данных. Это поможет нам решить несколько вопросов:
a. Это поможет нам понять, сколько отсутствующих значений / повторяющихся значений в настоящее время присутствует в данных (что является проблемой для нашей модели в будущем) - объяснено в предыдущем посте
б. Определите независимые (функции / атрибуты) и зависимые переменные (цель)? Если цели нет (в большинстве реальных случаев), разберитесь, как ее создать. Это будет основано на постановке проблемы, над которой вы работаете, и я расскажу об этом с некоторыми примерами в следующих блогах.
c. Изучите общее распределение каждой функции / атрибута по отношению к нашему столбцу "Цель" и по отношению друг к другу.
d. Есть ли функции, которые можно удалить, потому что они, в конечном счете, объясняют одно и то же? (Об этом мы поговорим в следующем блоге)
Анализ распределения данных
Чтобы понять распределение данных и взаимосвязи, существует множество библиотек Python (seaborn, plotly, matplotlib, sweetviz и т. Д.), Которые упростят вашу работу. На этом этапе следует помнить о следующих вещах:
- Определите свои числовые и категориальные переменные. Если вы считаете, что столбец почтового индекса является числовым, потому что в нем есть числа, возможно, вам стоит вернуться назад и подробно прочитать о категориальных и числовых атрибутах! В данной статье категориальные характеристики - это те, которые включают ограниченное количество категорий, а числовые атрибуты - это те, которые содержат непрерывное действительное число. Я нашел эту ссылку очень полезной для того же! Эта часть выглядит небольшой, но позже она играет важную роль в моделировании машинного обучения.
- После того, как вы успешно определили различные типы переменных, пора увидеть их закономерности и распределения. Для разных типов переменных вы можете использовать разные диаграммы / объяснения, чтобы лучше понять их.
- Категориальные характеристики - некоторые из основных статистических данных, которые могут быть здесь полезны: подсчет уникальных значений в каждой функции, частотного распределения в каждой функции, того, как каждая категория связана с целевым столбцом и т. д. Здесь можно использовать множество графиков, я использую круговую диаграмму (для меньших категорий), гистограмму для большего количества категорий или иногда просто обычную таблицу для быстрого анализа. Это полностью зависит от того, что облегчает понимание дистрибутива!
- Числовые характеристики. Для числовых атрибутов, таких как заработная плата, возраст, температура и т. д., создайте гистограмму, чтобы понять их распределение. Моя основная строка кода - df [‘‹column›’]. Describe (). Это позволяет мне быстро анализировать минимальное-максимальное-среднее значение и т. Д. Атрибута, не тратя много времени на кодирование. Есть много графиков, которые вы также можете использовать для анализа числовых характеристик!
- Чтобы проанализировать столбец Target, просмотрите распределение данных - гистограмму / круговую диаграмму для единиц и нулей в задаче классификации или гистограмму / график разброса для проблемы регрессии (непрерывное число).
Следует иметь в виду, что EDA (и вся наука о данных) очень интуитивно понятны.
Вы можете подумать, что процесс выглядит как импорт данных - ›EDA -› разработка функций - ›моделирование -› результаты, но на самом деле процесс представляет собой цикл, и все связано друг с другом.
Таким образом, даже если вы дойдете до стадии моделирования (после преодоления всех препятствий на стадии предварительной обработки данных), вам придется вернуться, чтобы проанализировать больше шаблонов, создать / удалить больше функций и снова провести моделирование! Терпение - ключ к успеху :)
Существует множество библиотек, предоставляющих множество «причудливых» интерактивных графиков, но наряду с красивым графиком вы должны выбрать тот, который поможет вам хорошо понять данные и который также легко объяснить другим.
Теперь, когда вы дочитали статью до конца, благодарим вас за прочтение! Если вы хотите, чтобы я что-то добавил / изменил / исправил, оставьте, пожалуйста, ответ! :)