Использование библиотеки python edatk для анализа ваших данных

Исследовательский анализ данных - важный начальный шаг к построению модели машинного обучения. Лучшее понимание ваших данных может сделать обнаружение выбросов, разработку функций и, в конечном итоге, моделированием более эффективными.

Некоторые части исследовательского анализа данных, такие как создание гистограмм признаков и подсчет пропущенных значений, можно в основном автоматизировать. В этой статье рассматривается созданная мною библиотека с открытым исходным кодом, в которой выполняются некоторые базовые автоматизированные процессы EDA.

ЭДАТК: автоматизированный инструментарий EDA

Чтобы ускорить исследовательский анализ данных, я создал edatk и открыл исходный код кода. Это позволяет вам устанавливать через pip и запускать автоматизированную eda с помощью нескольких строк кода. Он все еще находится на стадии альфа-тестирования, поэтому рассматривайте его как дополнение к существующему рабочему процессу eda.

Основными особенностями edatk являются:

  1. Простота использования. Выполнение автоматического исследовательского анализа данных в фреймворке pandas - это всего лишь одна строка кода.
  2. Вывод отчета в формате HTML: указав расположение папки, edatk создаст отчет в формате html, в котором наглядно представлены визуальные элементы и таблицы.
  3. Исследование целевой колонки: это одна из ключевых функций edatk. Передача необязательного параметра target_column указывает на добавление визуальных слоев и подсказок, где это возможно, помогая выявлять тенденции между входными функциями и столбцом, который вы прогнозируете в настройке машинного обучения с учителем. Если ваша проблема не соответствует модели контролируемого машинного обучения, вы можете просто проигнорировать этот параметр.
  4. Предполагаемые типы диаграмм: на основе типов столбцов в вашем фрейме данных edatk определит, какие показатели следует рассчитывать и какие типы диаграмм отображать.

Для этой демонстрации мы будем использовать обычный набор данных радужки. Набор данных имеет различные характеристики ириса, и задача состоит в том, чтобы предсказать вид.

В этой статье мы не будем строить модель машинного обучения, но запустим автоматизированную eda для выявления тенденций, которые могут быть полезны для выбора или создания новых функций для включения в обучение модели.

Запуск автоматизированного EDA

Основной способ запуска edatk заключается в следующем, с парой важных шагов:

  1. Импортируйте библиотеку и загрузите свой набор данных. В этой демонстрации мы используем seaborn для загрузки набора данных iris в фреймворк pandas.
  2. Запустите метод auto_eda, передав свой фрейм данных, место сохранения (вывода) и целевой столбец. Местоположение вывода и целевой столбец являются необязательными, но рекомендуется, если вы можете предоставить эти значения.

Это так просто! Edatk выполняет различные процедуры в зависимости от типов и количества элементов каждого столбца. Визуализации создаются автоматически, и на основе выходных данных создается отчет в формате html. Полный отчет в формате html, созданный с помощью приведенного ниже кода, можно просмотреть здесь.

Анализ результатов

Статистика по одному столбцу

Первая часть отчета проходит по всем столбцам и вычисляет основную описательную статистику. Это принимает форму начальной таблицы с минимальным, максимальным, процентным соотношением строк с пропущенными значениями и т. Д. В следующей части показаны некоторые базовые описательные диаграммы, такие как ящичные диаграммы и гистограммы.

На следующих снимках экрана показано, что генерируется для каждого столбца, на примере Sepal Length (одна из функций набора данных, используемых для прогнозирования видов).

Статистика по нескольким столбцам

Одна из самых полезных вещей при изучении ваших данных - это построение пар функций и их анализ относительно цели. Это может дать вам представление о том, как создавать новые функции. Если вы передадите target_column при вызове auto_eda, многие из этих визуализаций пар функций будут включать цветовую кодировку в соответствии с этой целевой переменной. Это позволяет быстро и легко выявлять потенциальные тенденции.

Например, один из полученных графиков представляет собой график рассеяния с petal_length по оси x и petal_width по оси ось y. Три различных типа видов, которые мы хотим научить нашу модель предсказывать, имеют цветовую кодировку. Здесь можно быстро заметить некоторое разделение. Включение только этих двух функций должно стать хорошей отправной точкой для модели. Вы также можете объединить в одну недавно разработанную функцию, чтобы зафиксировать взаимосвязь.

Создаваемые визуальные эффекты не всегда являются диаграммами рассеяния. Библиотека смотрит на типы столбцов, чтобы определить тип визуализации, которую следует создать. Например, категориальный столбец отображается против petal_width с использованием прямоугольной диаграммы (пример ниже).

Предостережения

Edatk может обрабатывать некоторые более крупные наборы данных (с точки зрения количества строк), поскольку некоторая выборка действительно происходит для графиков, которые, как известно, требуют высокой производительности. Однако, поскольку создаются комбинации парных графиков, очень широкий набор данных с большим количеством столбцов может вызвать проблемы. Метод auto_eda предоставляет параметр column_list для передачи меньшего списка имен столбцов в случае этого сценария.

Наконец, edatk все еще находится на стадии альфа-тестирования, поэтому рассматривайте его как дополнение к существующему рабочему процессу eda.

Содействие

Работа над этой библиотекой все еще продолжается, но ее исходный код открыт для всех, кто хочет внести свой вклад, чтобы сделать ее лучше!

Планируемые функции можно просмотреть здесь в репозитории github, а также некоторые базовые инструкции и команды git для тех, кто хочет сделать первый запрос на перенос.

Резюме

Автоматизированный исследовательский анализ данных может помочь вам лучше понять данные и выявить начальные тенденции.

Edatk - одна из таких библиотек, которая пытается автоматизировать часть этой работы. Проверьте это и дайте мне знать, что вы думаете!

Все примеры и файлы доступны на Github.

Первоначально опубликовано на https://datastud.dev.