Получите представление о своих данных за несколько минут.
Исследовательский анализ данных - это подход к анализу наборов данных для окончательного определения их основных характеристик, часто с использованием визуальных методов для понимания данных.
В процессе обучения я тратил меньше времени на EDA и пытался улучшить производительность моделей, а позже понял, что анализ данных важнее, чем выбор алгоритмов, не имея четкого представления о данных и их понимании. После изучения библиотек визуализации, таких как Matplotlib и Seaborn, анализ данных стал проще простого и позволил достичь лучших результатов. Позже я узнал о нескольких библиотеках, которые упростили EDA.
В этом рассказе я кратко рассказал о мощных библиотеках Python под названием Pandas Profiling, Sweetviz, Autoviz для лучшей визуализации и анализа данных с помощью всего нескольких строк кода за меньшее время.
Профилирование Pandas
Используется для получения быстрых сводок и корреляционного анализа данных. Это создает отчет о профиле для данного фрейма данных. Как правило, для этого мы используем функцию df.describe (), чего недостаточно для углубленного исследовательского анализа данных. Используя df.profile_report (), создавайте отчеты для анализа данных.
В зависимости от соответствующего типа данных столбца в интерактивном отчете HTML представлены следующие сведения: -
- Вывод типа: определение типов столбцов или функций, присутствующих во фрейме данных.
- Основы: тип, уникальные значения, отсутствующие значения данных.
- Квантильная статистика, например максимальное значение, Q3, медиана, Q1, минимум, диапазон, межквартильный размах.
- Описательная статистика, например среднее значение, режим, стандартное отклонение, сумма, среднее абсолютное отклонение, коэффициент вариации, асимметрия, эксцесс.
- Отсутствующие значения: матрица, счетчик, тепловая карта и дендрограмма пропущенных значений.
- Наиболее частые значения и гистограммы.
- Корреляции: выделение сильно коррелированных переменных, матриц Спирмена, Пирсона и Кендалла.
- Анализ текста изучает категории (прописные буквы, пробел), скрипты (латиница, кириллица) и блоки (ASCII) текстовых данных.
- Анализ файлов и изображений позволяет извлекать размеры файлов, даты создания и размеры и сканировать на предмет усеченных изображений или изображений, содержащих информацию EXIF.
Установка
Использование Pip
pip install pandas-profiling
Установите последнюю версию с GitHub
pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip
Мы можем начать использовать библиотеку, импортировав модуль, а затем применив его к фрейму данных.
import pandas as pd from pandas_profiling import ProfileReport df = pd.read_csv("sample.csv") profile = ProfileReport(df, title='Pandas Profiling Report', explorative=True)
Создать отчет
profile = ProfileReport(df, title="Pandas Profiling Report")
Сохранение отчета
profile.to_file("EDA_report.html")
SweetVIZ
Эта библиотека помогает нам создавать визуализации. Это библиотека Python с открытым исходным кодом, которая генерирует красивые визуализации с высокой плотностью, чтобы запустить EDA с помощью одной строчки кода. На выходе получается полностью автономное HTML-приложение. Он также используется для сравнения наборов данных и вывода из него выводов. Его цель состоит в том, чтобы обеспечить быстрый анализ целевых характеристик, данных обучения и тестирования и других задач, связанных с характеристиками данных.
Функции
- Целевой анализ: как целевые значения соотносятся с другими функциями.
- Визуализируйте и сравните отдельные наборы данных (например, тренировочные и тестовые данные) и внутренние характеристики (например, ребенок и взрослый).
- Ассоциации смешанного типа: Sweetviz легко интегрирует ассоциации для числовых (корреляция Пирсона), категориальных (коэффициент неопределенности) и категориально-числовых (коэффициент корреляции) типов данных, чтобы предоставить максимум информации.
- Выбор типа. Автоматически определяет числовые, категориальные и текстовые функции.
- Сводная информация: уникальные значения, тип, отсутствующие значения, повторяющиеся строки, наиболее частые значения.
- Численный анализ: мин. / макс. / диапазон, квартили, среднее значение, режим, стандартное отклонение, сумма, медианное абсолютное отклонение, коэффициент вариации, эксцесс, асимметрия.
Установка с помощью Pip
pip install sweetviz
Использование
import sweetviz as sv
report = sv.analyze(my_dataframe)
report.show_html() # Default arguments will generate to "SWEETVIZ_REPORT.html"
Чтобы узнать больше о библиотеке проверьте это.
Автовиз
Autoviz - это библиотека с открытым исходным кодом, используемая для автоматической визуализации. Он может автоматически визуализировать любой набор данных любого размера с помощью одной строчки кода. Предоставьте любой входной файл (CSV, текст или JSON), и Autoviz визуализирует его.
Установка с помощью Pip
pip install autoviz
использование
from autoviz.AutoViz_Class import AutoViz_Class AV = AutoViz_Class() filename = "train.csv" sep = "," dft = AV.AutoViz( filename, sep, target, df, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30, )
Примечания:
- AutoViz визуализирует файл любого размера, используя статистически достоверный образец.
COMMA
считается разделителем по умолчанию в файле. Но вы можете это изменить.- Предполагает, что первая строка является заголовком в файле, но вы можете изменить ее.
Аргументы
max_rows_analyzed
- ограничивает максимальное количество строк, используемых для отображения диаграммmax_cols_analyzed
- ограничивает количество непрерывных переменных, которые могут быть проанализированыverbose
- если 0, не печатает никаких сообщений и переходит в беззвучный режим. Это значение по умолчанию.
- если 1, печатать сообщения на терминале, а также отображать графики на терминале.
- если 2, печатать сообщения, но не отображать диаграммы, они просто сохраняются.
Заключение
Для быстрого EDA можно использовать многие другие библиотеки, но у меня есть краткое описание трех самых популярных библиотек, которые будут полезны в ваших проектах, анализе данных и путешествии по науке о данных.
Спасибо за чтение! Я надеюсь, что вы сочли эту статью полезной, нажмите кнопку хлопка и сообщите мне свою любимую библиотеку, если вы использовали какую-либо похожую библиотеку, которая сделала ваше путешествие интересным.