В следующий раз вы можете использовать одну строку кода для автоматизации вашего EDA. вот как.
Подготовка данных и EDA требуют много времени и усилий от специалистов по данным. Было бы неплохо иметь пакеты, которые позволяют вам быстро и быстро исследовать ваши данные. всего в несколько строк кода.
я покажу вам 3 лучших пакета Python, которые могут автоматизировать ваши задачи по исследованию и анализу данных.
3 лучших пакета, которые автоматизируют EDA как части:
- Профилирование панд.
- Свитвиз
- Автовиз
1. Профилирование Pandas:
Pandas Profiling генерирует отчеты о профилях из Pandas DataFrame и позволяет вам выполнять EDA, аналогичные другим пакетам, которые я здесь обсуждаю. Он имеет обширный вариант использования и больше руководств, чем все пакеты.
С помощью всего одной строки кода вы можете создать отчет EDA с помощью Pandas Profiling с описательной статистикой, корреляциями, отсутствующими значениями, текстовым анализом и многим другим.
Чтобы установить профилирование панд:
pip install pandas-profiling
Pandas Profiling создает аналогичный отчет с гладким пользовательским интерфейсом (UI).
код:
from pandas_profiling import ProfileReport
profile = ProfileReport(df, title="Report")
profile
для более подробной информации см. документацию: https://pypi.org/project/pandas-profiling/
2. Sweetviz:
SweetViz предлагает углубленный EDA (целевой анализ, сравнение, анализ признаков, корреляция) и интерактивный EDA в двух строках кода! Кроме того, SweetViz позволяет сравнивать два набора данных, например наборы обучающих и тестовых данных для ваших проектов машинного обучения.
Чтобы получить отчет от SweetViz, вы можете запустить следующую команду для любого фрейма данных, и она создаст отчет в формате HTML.
pip install sweetvizimport sweetviz as sv
analyze_report = sv.analyze(df) analyze_report.show_html(report.html', open_browser=False)
подробнее см. Документация: https://pypi.org/project/sweetviz/
3. Автовиз:
С помощью AutoViz вы можете автоматически визуализировать набор данных любого размера с помощью одной строки кода и сделать его более подробным.
Примечание: вам даже не нужны Pandas для чтения данных. AutoViz загрузит его, когда вы укажете путь к набору данных. Вот отчет, который мы создали с помощью AutoViz.
pip install autoviz from autoviz.AutoViz_Class import AutoViz_Class
AV = AutoViz_Class() df_av = AV.AutoViz('Sample.csv')
В AutoViz у вас есть гораздо больше графиков (например, скрипка, ящики и многое другое), а также статистические и вероятностные значения. Однако пользовательский интерфейс не такой удобный, как в других отчетах, и у вас нет доступа к интерактивным графикам.
подробнее см. Документация: https://pypi.org/project/autoviz/
Вывод:
Эти 3 пакета предлагают аналогичные функции, которые позволяют автоматизировать EDA с помощью простого интерактивного кода.
Спасибо, счастливого обучения.