Получите представление о своих данных за несколько минут.

Исследовательский анализ данных - это подход к анализу наборов данных для окончательного определения их основных характеристик, часто с использованием визуальных методов для понимания данных.

В процессе обучения я тратил меньше времени на EDA и пытался улучшить производительность моделей, а позже понял, что анализ данных важнее, чем выбор алгоритмов, не имея четкого представления о данных и их понимании. После изучения библиотек визуализации, таких как Matplotlib и Seaborn, анализ данных стал проще простого и позволил достичь лучших результатов. Позже я узнал о нескольких библиотеках, которые упростили EDA.

В этом рассказе я кратко рассказал о мощных библиотеках Python под названием Pandas Profiling, Sweetviz, Autoviz для лучшей визуализации и анализа данных с помощью всего нескольких строк кода за меньшее время.

Профилирование Pandas

Используется для получения быстрых сводок и корреляционного анализа данных. Это создает отчет о профиле для данного фрейма данных. Как правило, для этого мы используем функцию df.describe (), чего недостаточно для углубленного исследовательского анализа данных. Используя df.profile_report (), создавайте отчеты для анализа данных.

В зависимости от соответствующего типа данных столбца в интерактивном отчете HTML представлены следующие сведения: -

  • Вывод типа: определение типов столбцов или функций, присутствующих во фрейме данных.
  • Основы: тип, уникальные значения, отсутствующие значения данных.
  • Квантильная статистика, например максимальное значение, Q3, медиана, Q1, минимум, диапазон, межквартильный размах.
  • Описательная статистика, например среднее значение, режим, стандартное отклонение, сумма, среднее абсолютное отклонение, коэффициент вариации, асимметрия, эксцесс.
  • Отсутствующие значения: матрица, счетчик, тепловая карта и дендрограмма пропущенных значений.
  • Наиболее частые значения и гистограммы.

  • Корреляции: выделение сильно коррелированных переменных, матриц Спирмена, Пирсона и Кендалла.
  • Анализ текста изучает категории (прописные буквы, пробел), скрипты (латиница, кириллица) и блоки (ASCII) текстовых данных.
  • Анализ файлов и изображений позволяет извлекать размеры файлов, даты создания и размеры и сканировать на предмет усеченных изображений или изображений, содержащих информацию EXIF.

Установка

Использование Pip

pip install pandas-profiling

Установите последнюю версию с GitHub

pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip

Мы можем начать использовать библиотеку, импортировав модуль, а затем применив его к фрейму данных.

import pandas as pd
from pandas_profiling import ProfileReport
df = pd.read_csv("sample.csv")
profile = ProfileReport(df, title='Pandas Profiling Report', explorative=True)

Создать отчет

profile = ProfileReport(df, title="Pandas Profiling Report")

Сохранение отчета

profile.to_file("EDA_report.html")

SweetVIZ

Эта библиотека помогает нам создавать визуализации. Это библиотека Python с открытым исходным кодом, которая генерирует красивые визуализации с высокой плотностью, чтобы запустить EDA с помощью одной строчки кода. На выходе получается полностью автономное HTML-приложение. Он также используется для сравнения наборов данных и вывода из него выводов. Его цель состоит в том, чтобы обеспечить быстрый анализ целевых характеристик, данных обучения и тестирования и других задач, связанных с характеристиками данных.

Функции

  • Целевой анализ: как целевые значения соотносятся с другими функциями.
  • Визуализируйте и сравните отдельные наборы данных (например, тренировочные и тестовые данные) и внутренние характеристики (например, ребенок и взрослый).
  • Ассоциации смешанного типа: Sweetviz легко интегрирует ассоциации для числовых (корреляция Пирсона), категориальных (коэффициент неопределенности) и категориально-числовых (коэффициент корреляции) типов данных, чтобы предоставить максимум информации.
  • Выбор типа. Автоматически определяет числовые, категориальные и текстовые функции.
  • Сводная информация: уникальные значения, тип, отсутствующие значения, повторяющиеся строки, наиболее частые значения.
  • Численный анализ: мин. / макс. / диапазон, квартили, среднее значение, режим, стандартное отклонение, сумма, медианное абсолютное отклонение, коэффициент вариации, эксцесс, асимметрия.

Установка с помощью Pip

pip install sweetviz

Использование

import sweetviz as sv

report = sv.analyze(my_dataframe)
report.show_html() # Default arguments will generate to "SWEETVIZ_REPORT.html"

Чтобы узнать больше о библиотеке проверьте это.

Автовиз

Autoviz - это библиотека с открытым исходным кодом, используемая для автоматической визуализации. Он может автоматически визуализировать любой набор данных любого размера с помощью одной строчки кода. Предоставьте любой входной файл (CSV, текст или JSON), и Autoviz визуализирует его.

Установка с помощью Pip

pip install autoviz

использование

from autoviz.AutoViz_Class import AutoViz_Class

AV = AutoViz_Class()
filename = "train.csv"
sep = ","
dft = AV.AutoViz(
    filename,
    sep,
    target,
    df,
    header=0,
    verbose=0,
    lowess=False,
    chart_format="svg",
    max_rows_analyzed=150000,
    max_cols_analyzed=30,
)

Примечания:

  • AutoViz визуализирует файл любого размера, используя статистически достоверный образец.
  • COMMA считается разделителем по умолчанию в файле. Но вы можете это изменить.
  • Предполагает, что первая строка является заголовком в файле, но вы можете изменить ее.

Аргументы

  • max_rows_analyzed - ограничивает максимальное количество строк, используемых для отображения диаграмм
  • max_cols_analyzed - ограничивает количество непрерывных переменных, которые могут быть проанализированы
  • verbose
  • если 0, не печатает никаких сообщений и переходит в беззвучный режим. Это значение по умолчанию.
  • если 1, печатать сообщения на терминале, а также отображать графики на терминале.
  • если 2, печатать сообщения, но не отображать диаграммы, они просто сохраняются.

Заключение

Для быстрого EDA можно использовать многие другие библиотеки, но у меня есть краткое описание трех самых популярных библиотек, которые будут полезны в ваших проектах, анализе данных и путешествии по науке о данных.

Спасибо за чтение! Я надеюсь, что вы сочли эту статью полезной, нажмите кнопку хлопка и сообщите мне свою любимую библиотеку, если вы использовали какую-либо похожую библиотеку, которая сделала ваше путешествие интересным.