"Анализ данных"

Исследовательский анализ данных за несколько секунд

EDA через визуальный анализ Pandas

EDA - это способ понять, о чем идет речь. Это очень важно, поскольку помогает нам понять выбросы, взаимосвязь функций в данных с помощью графиков и графиков.

EDA - это процесс, требующий много времени, поскольку нам нужно визуализировать различные функции с помощью таких библиотек, как Matplot, seaborn и т. Д.

Есть способ автоматизировать этот процесс одной строчкой кода с помощью библиотеки Pandas Visual Analysis.

О визуальном анализе Pandas

  1. Это библиотека Python с открытым исходным кодом, используемая для исследовательского анализа данных.
  2. Он создает интерактивный пользовательский интерфейс для визуализации наборов данных в Jupyter Notebook.
  3. Созданные визуализации можно загрузить в виде изображений из самого интерфейса.
  4. Он имеет тип выбора, который поможет визуализировать шаблоны с выбросами и без них.

Реализация

  1. Установка

Мы начнем с установки визуального анализа pandas с помощью pip install.

!pip install pandas_visual_analysis

2. Импорт набора данных

Набор данных, который я здесь использую, уже присутствует в библиотеке seaborn, которую можно легко загрузить с помощью кода, приведенного ниже.

import seaborn as sns
df=sns.load_dataset('tips')
df.head()

3. EDA с использованием визуального анализа Pandas

На этом этапе мы будем импортировать визуальный анализ панд и использовать его для исследовательского анализа данных используемого набора данных.

from pandas_visual_analysis import VisualAnalysis
VisualAnalysis(df)

Это создаст пользовательский интерфейс, содержащий все визуализации нашего набора данных, всего за несколько секунд. Здесь вы можете наглядно визуализировать различные атрибуты набора данных.

Понимание вывода

Давайте разберемся с различными разделами пользовательского интерфейса:

  1. Статистический анализ: в этом разделе будут показаны статистические свойства, такие как среднее значение, медиана, мода и квантили всех числовых характеристик.
  2. Диаграмма разброса - показывает распределение между 2 различными функциями с помощью диаграммы разброса. вы можете выбрать объекты, которые будут отображаться по осям X и Y, из раскрывающегося списка.
  3. Гистограмма - показывает распределение между 2 различными функциями с помощью гистограммы.

Есть 3 типа выбора данных, для которых будут отображаться визуализации. Используя тип выбора «Вычесть», вы можете перетащить и выбрать точки данных, для которых вы хотите анализировать визуализации, а с помощью типа выбора «Добавление» вы можете снова перетащить и добавить те точки данных, которые были исключены.

Эта функция очень полезна, если вы хотите увидеть, как визуализации между различными функциями меняются с выбросами и без них за несколько секунд.

Здесь вы можете видеть, что я исключил выбросы, отмеченные пером, выбрав выбор вычитания, а также изменил визуализации во всех других разделах.

Вот как вы можете использовать визуальный анализ pandas для EDA. Одним из основных преимуществ использования этой библиотеки по сравнению с другими библиотеками является то, что вы можете настроить выбор точек данных.

Прежде чем ты уйдешь

Спасибо за внимание! Если вы хотите связаться со мной, не стесняйтесь обращаться ко мне по адресу [email protected] или в моем профиле LinkedIn. Кроме того, вы можете найти код для этой статьи и несколько действительно полезных проектов в области науки о данных в моей учетной записи GitHub.