Изучение набора данных перед началом работы или подготовка его для модели машинного обучения действительно важно, потому что мы должны знать, о чем говорят данные и какие функции и целевой столбец имеют. Как правило, мы начинаем с выяснения взаимосвязи между разными столбцами, создания различных типов визуализаций, поиска закономерностей в данных и т. Д.
Согласно исследованию, на поисковый анализ данных уходит около 40% общего времени проекта. Что, если я скажу, что его можно сократить до 10%? Это означает, что теперь вы можете больше сосредоточиться на создании надежной и высокоточной модели машинного / глубокого обучения, не тратя много времени на EDA.
Sweetviz - это библиотека Python с открытым исходным кодом, которая создает отчет EDA всего в одной строке кода. Да, вы прочитали это правильно, всего в одной строке кода вы можете анализировать данные, визуализировать закономерности и ассоциации различных столбцов в наборе данных. Он находится в свободном доступе и очень прост в использовании. В этой статье я покажу вам, как с помощью Sweetviz можно творить чудеса с данными.
Давайте начнем…
Установка необходимых библиотек
Как и любую другую библиотеку python, мы установим sweetviz с помощью pip. Команда, приведенная ниже, установит его.
pip install sweetviz
Импорт необходимых библиотек
Мы будем использовать pandas для загрузки набора данных и sweetviz для создания отчета EDA. Команда ниже импортирует эти библиотеки.
import pandas as pd import sweetviz as sv
Загрузка набора данных
В этой статье я использую знаменитый набор данных Diabetes, вы можете загрузить этот набор данных с помощью Kaggle.
df = pd.read_csv('Diabetes.csv') df
Создание отчета EDA
Это последний шаг, на котором мы создадим отчет EDA всего в одной строке кода. Этот отчет будет содержать ассоциации, анализ функций, распределение данных по разным столбцам и т. Д. Пусть начинается волшебство ...
#Creating the dataset advert_report = sv.analyze(df) #display the report advert_report.show_html('Diabetes_report.html')
Здесь Вы можете увидеть главную страницу отчета, где представлена основная информация о наборе данных, включая количество объектов и их типы данных. В видео ниже вы можете визуализировать, как вы можете видеть различные разделы в этом отчете и использовать их в своем анализе.
Самое приятное в Sweetviz то, что он создает отчет в формате HTML, и вы можете поделиться этими отчетами со своей командой. Он помогает в ваших презентациях и содержит всю необходимую информацию, чтобы понять основы набора данных.
Попробуйте это с разными наборами данных и дайте мне знать ваши комментарии в разделе ответов.
Эта запись написана при сотрудничестве с Пиюшем Ингейлом.
Перед тем, как ты уйдешь
Спасибо за чтение! Если вы хотите связаться со мной, свяжитесь со мной по адресу [email protected] или в моем профиле LinkedIn. Вы можете просмотреть мой профиль Github для различных проектов по науке о данных и руководств по пакетам. Кроме того, не стесняйтесь изучать мой профиль и читать разные мои статьи, связанные с наукой о данных.