График сердечно-сосудистых заболеваний с использованием Bubbly. Поэтому для сегодняшнего блога я подумал о том, чтобы взять случайный набор данных и создать уникальные графики, которые помогли бы с визуализацией и помогли бы нам лучше анализировать наши данные. Поэтому я решил использовать пакет на питоне под названием Bubbly, который в основном используется для построения интерактивных и анимированных пузырьковых диаграмм.
Я объясню код вместе с реализацией, поэтому я бы рекомендовал установить данные пакеты, чтобы не отставать от реализации.
!pip install bubbly !pip install pandas-profiling
Pip должен установить зависимости, если вы используете виртуальную среду, такую как anaconda или даже на kaggle. Начнем с импорта всех заданных библиотек.
import numpy as np import pandas as pd import pandas_profiling import matplotlib.pyplot as plt import seaborn as sns import plotly.offline as py from plotly.offline import init_notebook_mode, iplot import plotly.graph_objs as go init_notebook_mode(connected = True) from bubbly.bubbly import bubbleplot import warnings warnings.filterwarnings('ignore')
Следующим шагом будет импорт набора данных в заданную среду.
data = pd.read_csv('../input/heart.csv') data.shape
Если вы хотите разобраться в наборе данных, вы можете запустить приведенные ниже команды, чтобы ознакомиться с набором данных.
data.head() data.describe()
Профилирование Pandas — это совершенно другая тема, которую я буду освещать в своих следующих блогах, но в сегодняшнем блоге я расскажу об основах.
Профилирование Pandas – это модуль Python с открытым исходным кодом, с помощью которого мы можем быстро выполнитьисследовательский анализ данныхс помощью всего лишь нескольких строки кода. Кроме того, если этого недостаточно, чтобы убедить нас использовать этот инструмент, он также генерирует интерактивные отчеты в веб-формате, которые могут быть представлены любому человеку, даже если он не знает программирования.
Ознакомьтесь с приведенной ниже ссылкой, чтобы узнать больше о профилировании pandas.
Запустите приведенные ниже команды, чтобы выполнить ПРОФИЛИРОВАНИЕ PANDAS для данного набора данных. Я не делал скриншоты данного профилирования данного набора данных, но ниже я прикрепил образец того, как выглядит выборка.
profile = pandas_profiling.ProfileReport(data) profile
Теперь последним и самым важным шагом будет создание пузырькового графика.
figure = bubbleplot(dataset = data, x_column = 'trestbps', y_column = 'chol', bubble_column = 'sex', time_column = 'age', size_column = 'oldpeak', color_column = 'sex', x_title = "Resting Blood Pressure", y_title = "Cholestrol", title = 'BP vs Chol. vs Age vs Sex vs Heart Rate', x_logscale = False, scale_bubble = 3, height = 650) py.iplot(figure, config={'scrollzoom': True})
В данном коде мы используем пузырьковый график, который мы установили с помощью pip. Код принимает набор данных в качестве данных, а заданный x_column, а также y_column определяют имена столбцов, которые используются вдоль оси x, а также оси y данного графика. Каждый из этих пузырьков относится к набору значений, которые определяются столбцом_пузыря, столбцом_времени, столбцом_размера и столбцом_цвета. Например, если столбец color_column указан как «пол», то разные сексуальные ориентации представлены разными цветами и вдоль оси времени, если мы передаем «возраст» в качестве параметра, мы можем проверить изменение возраста вместе со временем, которое будут представлены разными пузырьками. Графики показаны ниже:
Следующий метод является отличным способом визуализации данных и доступен в виде библиотеки на веб-сайте pypi. В любом случае это все на сегодня. Спасибо за чтение. Продолжай учиться.
Ваше здоровье.