В следующий раз вы можете использовать одну строку кода для автоматизации вашего EDA. вот как.

Подготовка данных и EDA требуют много времени и усилий от специалистов по данным. Было бы неплохо иметь пакеты, которые позволяют вам быстро и быстро исследовать ваши данные. всего в несколько строк кода.

я покажу вам 3 лучших пакета Python, которые могут автоматизировать ваши задачи по исследованию и анализу данных.

3 лучших пакета, которые автоматизируют EDA как части:

  1. Профилирование панд.
  2. Свитвиз
  3. Автовиз

1. Профилирование Pandas:

Pandas Profiling генерирует отчеты о профилях из Pandas DataFrame и позволяет вам выполнять EDA, аналогичные другим пакетам, которые я здесь обсуждаю. Он имеет обширный вариант использования и больше руководств, чем все пакеты.

С помощью всего одной строки кода вы можете создать отчет EDA с помощью Pandas Profiling с описательной статистикой, корреляциями, отсутствующими значениями, текстовым анализом и многим другим.

Чтобы установить профилирование панд:

pip install pandas-profiling

Pandas Profiling создает аналогичный отчет с гладким пользовательским интерфейсом (UI).

код:

from pandas_profiling import ProfileReport
profile = ProfileReport(df, title="Report")
profile

для более подробной информации см. документацию: https://pypi.org/project/pandas-profiling/

2. Sweetviz:

SweetViz предлагает углубленный EDA (целевой анализ, сравнение, анализ признаков, корреляция) и интерактивный EDA в двух строках кода! Кроме того, SweetViz позволяет сравнивать два набора данных, например наборы обучающих и тестовых данных для ваших проектов машинного обучения.

Чтобы получить отчет от SweetViz, вы можете запустить следующую команду для любого фрейма данных, и она создаст отчет в формате HTML.

pip install sweetviz
import sweetviz as sv
analyze_report = sv.analyze(df)
analyze_report.show_html(report.html', open_browser=False)

подробнее см. Документация: https://pypi.org/project/sweetviz/

3. Автовиз:

С помощью AutoViz вы можете автоматически визуализировать набор данных любого размера с помощью одной строки кода и сделать его более подробным.

Примечание: вам даже не нужны Pandas для чтения данных. AutoViz загрузит его, когда вы укажете путь к набору данных. Вот отчет, который мы создали с помощью AutoViz.

pip install autoviz
from autoviz.AutoViz_Class import AutoViz_Class
AV = AutoViz_Class()
df_av = AV.AutoViz('Sample.csv')

В AutoViz у вас есть гораздо больше графиков (например, скрипка, ящики и многое другое), а также статистические и вероятностные значения. Однако пользовательский интерфейс не такой удобный, как в других отчетах, и у вас нет доступа к интерактивным графикам.

подробнее см. Документация: https://pypi.org/project/autoviz/

Вывод:

Эти 3 пакета предлагают аналогичные функции, которые позволяют автоматизировать EDA с помощью простого интерактивного кода.

Спасибо, счастливого обучения.