Сегодня изучите одну новую функцию библиотеки pandas, которая называется pandas_profiling.

Как мы знаем, это модуль Python с открытым исходным кодом, который мы можем использовать для быстрого исследовательского анализа данных всего несколькими строками кода. Кроме того, этого недостаточно, чтобы убедить вас, позвольте мне рассказать вам еще одну интересную вещь о том, что мы можем создать интерактивный отчет в веб-формате, который может быть представлен любому человеку, даже если он не знает программируя с помощью этого визуального представления, они могут понять различное понимание данных.

В основном, когда вы хотите объяснить свои данные своим клиентам, чтобы они могли понять состояние своих собственных данных. На этот раз этот инструмент станет благословением для всех специалистов по данным.

Взволнованный!!! Затем позвольте мне показать вам EDA, который я выполнил для набора данных о спросе на прокат велосипедов.

Как использовать профилирование Pandas:

Первый шаг для установки библиотеки pandas_profiling с помощью следующей команды:

!pip install pandas-profiling

Затем просто сгенерируйте отчет и используйте следующие команды:

from pandas_profiling import ProfileReport 
prof = ProfileReport(df)
prof.to_file(output_file='output.html') prof

Вот и мы, это было так просто. Мы можем увидеть сгенерированный отчет в файле output.html.

Подожди!! Глядя на эту удивительную функцию, я думаю, что всем это нравится. Но есть у него один недостаток.

Недостатки профилирования Pandas:

Основным недостатком профилирования панд является то, что для профилирования панд большого набора данных требуется время для создания отчета. это означает, что с увеличением размера данных время создания отчета также значительно увеличивается.

Один из способов решить эту проблему — сгенерировать отчет только из части всех имеющихся у нас данных. Важно убедиться, что данные, выбранные для создания отчета, представляют все имеющиеся у нас данные, например, может случиться так, что первые X строк данных содержат только данные из одной категории. В этом примере мы хотели бы рандомизировать порядок данных и выбрать репрезентативную выборку.

Пример с кодом:

from pandas_profiling import ProfileReport #We only use the first 10000 data points prof = ProfileReport(df.sample(n=10000)) prof.to_file(output_file='output.html')

Другой альтернативой является использование минимального режима, представленного в версии 2.4 профилирования pandas. Вы можете проверить, какую версию вы установили с помощью этой команды:

pandas_profiling.version.__version__

В минимальном режиме упрощенный отчет будет сгенерирован с меньшим объемом информации, чем полный, но его можно сгенерировать относительно быстро для большого набора данных. Это код, который будет использоваться:

profile = ProfileReport(df, minimal=True) profile.to_file(output_file="output_min.html")

Именно так мы можем быстро и эффективно выполнять EDA для любых типов данных.

Первоначально опубликовано на https://www.linkedin.com.