Часть - X: Визуализация данных с использованием Pandas и Matplotlib

Добро пожаловать в другой блог Deep Dive in Machine Learning with Python, в последнем блоге мы работали с расширенными функциями Pandas, используя набор данных Heart Disease. В сегодняшнем блоге мы сосредоточимся на визуализации данных с помощью Pandas и библиотек визуализации данных (Matplotlib).

В этом блоге мы будем использовать популярный набор данных Gapminder и создавать различные интерактивные и неинтерактивные графики.

Импортируйте необходимые библиотеки Python

Импортировать набор данных

Мы импортируем набор данных из файла CSV (например, gapminder.csv) и создадим фрейм данных Pandas.

Проблема-1: Как построить гистограмму, отображающую общее население некоторых стран?

СЛУЧАЙ-1: Назначение цветов вручную

Итак, мы создали новый DataFrame COUNTRY_POP, который содержит Общее НАСЕЛЕНИЕ каждой страны.

На предыдущем шаге мы создали новый столбец ЦВЕТА в фрейме данных COUNTRY_POP, в котором цвета сопоставлены с некоторыми странами.

CASE-2: Использование цветовой карты

На этом этапе мы создали массив Numpy с различными 182 значениями, такими же, как количество стран в наборе данных.

На этом этапе мы создали объект Colormap (т. Е. colors) с помощью функции CM и предоставили тип Viridis '.

CASE-2.1: Горизонтальная гистограмма

CASE-2.2: Вертикальная гистограмма

В приведенном выше примере мы создали график по вертикали и предоставили значение параметра «bar» вместо «barh».

Прочие параметры:

plt.minorticks_on: этот параметр включает галочки на осях x и y.

plt.grid: этот параметр будет рисовать квадратные линии сетки графика с указанным цветом и стилем линии.

plt.xlabel: метка для оси x.

plt.ylabel: метка для оси Y

Проблема-2: Как построить точечную диаграмму, показывающую общее количество младенцев по отношению к общему ВВП по регионам?

В приведенном выше примере мы создали точечную диаграмму, отображающую общее количество младенцев по сравнению с общим ВВП для континентов.

Проблема-3: Как построить интерактивную диаграмму разброса, которая будет отображать общее количество младенцев по отношению к ВВП на душу населения с 1950 по 2015 год?

На шаге 1 мы создали новый DataFrame babies_in_region, содержащий общее количество младенцев и общий ВВП для каждого года и региона.

Проблема-4: Как отобразить рост населения с помощью линейного графика?

На этом этапе мы создали фрейм данных популяция, в котором была указана общая численность населения за год.

Проблема-5: Как просмотреть выбросы в наборе данных с помощью BOX Plots?

В описательной статистике ящичная диаграмма или ящичная диаграмма - это метод графического изображения групп числовых данных через их квартили. Ящичковые диаграммы также могут иметь линии, идущие вертикально от ящиков (усов), указывающие на изменчивость за пределами верхнего и нижнего квартилей, отсюда термины диаграмма «ящик и усы» и диаграмма «ящик и усы». Выбросы могут быть нанесены на график как отдельные точки.

Проблема-6: Как построить график распределения населения между континентами с помощью круговых диаграмм?

Проблема-7: Как построить график распределения Babies_per_woman между континентами с помощью круговых диаграмм?

В двух приведенных выше примерах мы создали круговые диаграммы, представляющие население и процент распределения младенцев на женщину по регионам.

Поздравляем, мы подошли к концу этого блога. Подводя итог, мы создали различные диаграммы, используя Pandas и Matplotlib. В следующем блоге мы рассмотрим такие графики, как гистограмма, парный график, графики плотности и другие.

Если вы хотите загрузить блокнот Jupyter этого блога, пожалуйста, зайдите в репозиторий GitHub ниже:

https://github.com/Rajesh-ML-Engg/Deep_Dive_in_ML_Python

Спасибо и приятного обучения !!!

Блог-11: Визуализация данных - II