Чтобы начать построение модели машинного обучения или любого статистического анализа, мы должны пройти этап исследовательского анализа данных, то есть наблюдать за распределением данных, отсутствием значений, наличием выбросов, корреляционными характеристиками между переменными и прочим.

Таким образом, для этого мы используем несколько изолированных функций и тестов, что затрудняет сбор информации в одном месте.

Но как насчет использования инструмента, который собирает всю информацию из исследовательского анализа в одном месте? Существует пакет под названием Pandas Profiling, с помощью которого мы можем провести большой анализ с помощью всего одной строки кода. Он возвращает отчет в интерактивном формате HTML, к которому довольно легко получить доступ и проанализировать данные.

Использование профилирования Pandas

  • Установка

Установка с пакетом pip

pip install pandas-profiling

Установка с помощью пакета conda

conda install -c conda-forge pandas-profiling
  • Команда "Инициалы"

Чтобы сгенерировать отчет с помощью Pandas Profiling, вы должны сначала получить набор данных для анализа. Таким образом, мы будем использовать набор данных Boston Dataset, предоставленный библиотекой scikit-learn, в качестве примера. Чтобы импортировать его, используйте следующие команды:

import pandas as pd
from sklearn.datasets import load_boston
boston = load_boston()
#create a pandas dataframe
df_boston = pd.DataFrame(data=boston.data,           columns=boston.feature_names)
#show the dataset head
df_boston.head()

Чтобы сгенерировать интерактивный HTML-отчет с использованием Pandas Profiling, мы должны импортировать библиотеку и вызвать ее со ссылкой на используемый набор данных, в нашем случае «df_boston», как показано ниже:

from pandas_profiling import ProfileReport
profile = ProfileReport(df_boston, title="Pandas Profiling Report")
profile.to_file("My Report.html")

В том же каталоге скрипта будет создан HTML-файл, содержащий всю информацию с исследовательским анализом, с именем «Мой отчет.html».

Мы рассмотрим следующие разделы:

  1. Обзор
  2. Переменные
  3. Корреляции
  4. Отсутствующие значения
  5. Образец
  6. Обзорный раздел:

В этом разделе у нас будет общая информация о наборе данных. Есть два подраздела: Статистика набора данных и Типы переменных.

В первом (Статистика набора данных) у нас будет такая информация, как количество переменных, количество строк, отсутствующие значения, повторяющиеся значения и объем памяти, занимаемый набором данных.

Во втором (Типы переменных) у нас будет информация о том, какие типы переменных содержатся в наборе данных.

2. Раздел переменных:

В этом разделе отображается вся информация, сгенерированная в разделе Обзор, но подробно для каждой из переменных. Кроме того, он предоставляет такую ​​информацию, как уникальные баллы и их процент; пропущенные значения и их процент. Кроме того, как мы видим справа, он дает минимальное и максимальное значения, а также процент нулей в этой функции и гистограмму ее переменной.

В правом нижнем углу есть параметр «Переключить детали». В подразделе Переключить сведения отображается квантильная статистика, которая содержит такие сведения, как среднее значение, медиана, процентили, межквартильный диапазон и т. д. Описательная статистика предоставляет такие сведения, как асимметрия, дисперсия, коэффициент вариации и т. д. Кроме того, мы можем обратите внимание, что есть еще 3 вкладки, а именно Гистограмма, Общие значения и Экстремальные значения.

3. Раздел корреляций:

Раздел корреляции дает представление о том, как объекты коррелируют друг с другом. У нас может быть ясное и легкое понимание того, как ресурсы соотносятся друг с другом. Ссылаясь на выделение на изображении выше (раздел «Корреляция»), он может легко переключаться между различными корреляциями, такими как Пирсон, Спирмен, Кендалл и Фик.

4. Раздел «Отсутствующие значения»:

В разделе «Отсутствующие значения» представлен обзор всех функций, присутствующих в наборе данных, по отношению к отсутствующим значениям в каждом столбце, а также указание на необходимость какой-либо обработки.

5. Образец раздела:

В этом разделе отображаются первые 10 точек данных (верхняя часть 10) и нижние 10 точек данных (хвост 10).

Я надеюсь, что эта информация поможет вам в исследовательской работе по анализу данных, облегчит извлечение информации и улучшит процесс принятия решений.

Для получения дополнительной информации см. документацию библиотеки Pandas Profiling: https://pandas-profiling.ydata.ai/docs/master/ или https://github.com/ydataai/pandas-profiling.