Эффективный быстрый процесс исследования данных.

Исследовательский анализ данных - это процесс изучения данных, получения информации, проверки гипотез, проверки предположений и выявления скрытых закономерностей в данных.

Пояснительный анализ данных (EDA) - это подход к анализу наборов данных для обобщения основных характеристик наборов данных, часто посредством визуализации. Часто это один из самых важных этапов анализа данных, который выполняется перед использованием любого статистического моделирования.

EDA не имеет фиксированного набора правил, и его применение варьируется от одного набора данных к другому в зависимости от того, насколько релевантен элемент. EDA в основном вращается с помощью определенных статистических методов, таких как построение графиков, гистограмм, корреляционной матрицы и многое другое.

EDA позволяет нам идентифицировать и исследовать:

  • Наличие недостающих значений и дубликатов.
  • Статистика набора данных, такая как количество функций, типы функций (категориальные, числовые, логические и т. Д.).
  • Наличие выбросов или других аномалий.
  • Визуализируйте, насколько разрежены элементы по отношению друг к другу.
  • Определите наиболее влиятельные переменные.

Все это может показаться очень обширным. EDA подобна мосту между фактическими данными и моделированием. Что, если бы я сказал вам, что вместо того, чтобы вводить код для каждой итерации процедуры EDA, вы можете получить все вышеупомянутые полезные вещи с помощью всего одной строчки кода?

Профилирование Pandas - это модуль Python с открытым исходным кодом, с помощью которого мы можем получить обзор нашего набора данных с помощью всего одной строчки кода. Он делает за нас всю тяжелую работу от визуализации до понимания распределения каждой переменной.

Это также позволяет нам создавать интерактивные веб-отчеты, которые можно использовать для быстрого представления обзора набора данных любому человеку, независимо от его / ее технических навыков. Короче, это мог понять даже непрофессионал.

Давайте начнем с того, как использовать профилирование панд.

  • Сначала нам нужно установить модуль в нашу среду.
  • Теперь нам нужно запустить следующий код для создания отчета.

Код в строке 4 генерирует профиль в самом блокноте jupyter, а код в строке 5 создает новый файл .html, хранящийся в вашей рабочей папке. Открыв файл, мы увидим обзор набора данных.

Как и многие другие хорошие вещи, профилирование Pandas требует больших вычислительных ресурсов для больших наборов данных. Следующий код отключает дорогостоящие вычисления (такие как корреляции и динамическое объединение). Используйте следующий синтаксис:

Теперь мы можем довольно легко выполнить EDA, используя профилирование pandas с помощью всего одной строчки кода. Всегда помните, что это не единственное, что вы можете делать во время EDA, но также попробуйте сделать это обычно, используя базовые панды и визуализацию с помощью matplotlib или seaborn и т. Д.

Чтобы узнать больше о профилировании панд, пройдите по этой ссылке.