Изучение набора данных перед началом работы или подготовка его для модели машинного обучения действительно важно, потому что мы должны знать, о чем говорят данные и какие функции и целевой столбец имеют. Как правило, мы начинаем с выяснения взаимосвязи между разными столбцами, создания различных типов визуализаций, поиска закономерностей в данных и т. Д.

Согласно исследованию, на поисковый анализ данных уходит около 40% общего времени проекта. Что, если я скажу, что его можно сократить до 10%? Это означает, что теперь вы можете больше сосредоточиться на создании надежной и высокоточной модели машинного / глубокого обучения, не тратя много времени на EDA.

Sweetviz - это библиотека Python с открытым исходным кодом, которая создает отчет EDA всего в одной строке кода. Да, вы прочитали это правильно, всего в одной строке кода вы можете анализировать данные, визуализировать закономерности и ассоциации различных столбцов в наборе данных. Он находится в свободном доступе и очень прост в использовании. В этой статье я покажу вам, как с помощью Sweetviz можно творить чудеса с данными.

Давайте начнем…

Установка необходимых библиотек

Как и любую другую библиотеку python, мы установим sweetviz с помощью pip. Команда, приведенная ниже, установит его.

pip install sweetviz

Импорт необходимых библиотек

Мы будем использовать pandas для загрузки набора данных и sweetviz для создания отчета EDA. Команда ниже импортирует эти библиотеки.

import pandas as  pd
import sweetviz as sv

Загрузка набора данных

В этой статье я использую знаменитый набор данных Diabetes, вы можете загрузить этот набор данных с помощью Kaggle.

df = pd.read_csv('Diabetes.csv')
df

Создание отчета EDA

Это последний шаг, на котором мы создадим отчет EDA всего в одной строке кода. Этот отчет будет содержать ассоциации, анализ функций, распределение данных по разным столбцам и т. Д. Пусть начинается волшебство ...

#Creating the dataset
advert_report = sv.analyze(df)
#display the report
advert_report.show_html('Diabetes_report.html')

Здесь Вы можете увидеть главную страницу отчета, где представлена ​​основная информация о наборе данных, включая количество объектов и их типы данных. В видео ниже вы можете визуализировать, как вы можете видеть различные разделы в этом отчете и использовать их в своем анализе.

Самое приятное в Sweetviz то, что он создает отчет в формате HTML, и вы можете поделиться этими отчетами со своей командой. Он помогает в ваших презентациях и содержит всю необходимую информацию, чтобы понять основы набора данных.

Попробуйте это с разными наборами данных и дайте мне знать ваши комментарии в разделе ответов.

Эта запись написана при сотрудничестве с Пиюшем Ингейлом.

Перед тем, как ты уйдешь

Спасибо за чтение! Если вы хотите связаться со мной, свяжитесь со мной по адресу [email protected] или в моем профиле LinkedIn. Вы можете просмотреть мой профиль Github для различных проектов по науке о данных и руководств по пакетам. Кроме того, не стесняйтесь изучать мой профиль и читать разные мои статьи, связанные с наукой о данных.