Исследовательский анализ данных (EDA) используется учеными для анализа и исследования наборов данных, обобщения их основных характеристик, часто с использованием методов визуализации данных, а также для обнаружения закономерностей, обнаружения аномалий, проверки гипотезы или проверки предположений.

EDA помогает нам увидеть, что данные могут нам сказать, прежде чем сделать предположение или задачу моделирования. Это также помогает выявлять очевидные ошибки, а также понимать закономерности в данных, обнаруживать выбросы или аномальные события, подсчитывать, определять среднее значение, медиану, квантили, тип данных, находить интересные отношения между переменными.

Для EDA в машинном обучении нам нужно написать так много строк кода, что отнимает время. EDA можно автоматизировать с помощью библиотеки Python под названием Pandas Profiling.

Профилирование Pandas — это модуль Python с открытым исходным кодом, с помощью которого мы можем легко выполнить исследовательский анализ данных с помощью нескольких строк кода.

Это отличный инструмент для создания отчетов в интерактивном формате HTML, который довольно легко понять любому, даже если он не имеет знаний в области программирования или анализа данных.

Напротив, профилирование панд устраняет необходимость визуализации и понимания распределения каждой переменной. Он генерирует отчет со всей доступной информацией.

Чтобы установить ›› pip install pandas-profiling

Чтобы сгенерировать отчет, используйте эти команды ››from pandas profiling import ProfileReport

данные = ProfileReport(df)

data.to_file(выходной файл=’output.html’)

ПРОФИЛЬНЫЙ ОТЧЕТ СОСТОИТ ИЗ СЛЕДУЮЩИХ РАЗДЕЛОВ

  1. Вывод: определите тип столбца во фрейме данных.

2. Основы: тип, уникальные значения, отсутствующие значения.

3. Квантильная статистика: минимальное значение, Q1, медиана, Q3, максимум, диапазон, межквартильный диапазон.

4. Описательная статистика: среднее значение, мода, стандартное отклонение, сумма, среднее абсолютное отклонение, коэффициент вариации, эксцесс, асимметрия.

5. Наиболее часто встречающиеся значения

6. Гистограмма

7. Корреляции (выделение переменных с высокой степенью корреляции, корреляция Спирмена и Пирсона)

8. Отсутствующие значения (матрица, количество, тепловая карта и дендрограмма отсутствующих значений)

9. Пример. В этом разделе отображаются первые и последние 10 строк набора данных.

10. Анализ текста: узнайте о категориях (верхний регистр, пробел), сценариях (латиница, кириллица) и блоках (ASCII) текстовых данных.

КАК СОХРАНИТЬ ОТЧЕТ

Теперь вы можете легко выполнить EDA с отчетом Pandas с несколькими строками кода и всеми функциями, которые содержит отчет. Вам может быть интересно экспортировать этот анализ во внешний файл в предпочитаемом вами формате, json или html.

Спасибо за чтение. Я надеюсь, что библиотека «Pandas Profiling» поможет быстрее и проще анализировать данные.