Визуализация данных - это графическое представление информации и данных. Используя визуальные элементы, такие как диаграммы, графики и карты, визуализация данных является доступным способом видеть и понимать тенденции, выбросы и закономерности в данных.

Существует так много способов визуализации данных. Как мы выберем наилучшую визуализацию данных для конкретных наборов данных?

Это зависит от того, что вы хотите показать?

→ Сравнение

→ Распространение

→ Отношения

→ Состав

Давайте обсудим некоторые библиотеки Python для визуализации данных.

Matplotlib: Matplotlib - это библиотека Python, используемая для создания 2D-графиков и графиков с использованием скриптов Python. Он имеет модуль под названием pyplot, который упрощает построение графиков, предоставляя возможность управления стилями линий, свойствами шрифтов, осями форматирования и т. Д. Он поддерживает очень широкий спектр графиков и графиков, а именно - гистограммы, гистограммы, точечные диаграммы и т. Д.

Гистограммы. Гистограмма - это диаграмма, на которой столбцы используются для сравнения категорий данных. Гистограммы наиболее эффективны, когда вы пытаетесь визуализировать категориальные данные, которые имеют несколько (вероятно, менее 10) категорий.

Обычная гистограмма:

Гистограммы обычно используются для сравнения, поэтому давайте рассмотрим пример, в котором мы сравним некоторые языки программирования с их использованием. "Исходный код"

Сгруппированные гистограммы: сгруппированные гистограммы позволяют сравнивать несколько категориальных переменных.

Возьмем пример, в котором мы хотим проанализировать игровую оценку пола отдельно для мужчин и женщин, в которых мужчина и женщина вместе составляют группу. "Исходный код"

Гистограмма с накоплением: гистограмма с накоплением (или гистограмма с накоплением) - это диаграмма, в которой столбцы используются для отображения сравнения между категориями данных, но с возможностью разбиения и сравнения частей целого. Каждая полоса на диаграмме представляет собой целое, а ее сегменты представляют различные части или категории этого целого.

Давайте возьмем тот же пример, который используется в сгруппированной полосовой диаграмме, но теперь мы хотим увидеть гендерные оценки с соответствующими групповыми оценками, по которым мы можем сравнивать с другими группами. "Исходный код"

Линейные графики. Линейная диаграмма или линейный график отображает эволюцию одной или нескольких числовых переменных. Точки данных соединены отрезками прямых линий. Он похож на диаграмму рассеяния, за исключением того, что точки измерения упорядочены (обычно по их значению по оси x) и соединены отрезками прямых линий. Линейная диаграмма часто используется для визуализации тенденции данных за интервалы времени (временного ряда), поэтому линия часто проводится в хронологическом порядке.

Например: Давайте возьмем набор данных, в котором население Индии и Пакистана дано с 1960 по 2010 год, поэтому линейный график поможет проанализировать, как их население изменилось с 1960 по 2010 год. Исходный код

Круговые диаграммы. Круговая диаграмма (или круговая диаграмма) - это специальная диаграмма, в которой для отображения относительных размеров данных используются «секторные срезы». Диаграмма разделена на секторы, где каждый сектор показывает относительный размер каждого значения.

Например: если взять пример, имея четыре разных языка программирования с их размером (примите размер в качестве оценки экзаменационной работы), круговая диаграмма показывает их секторы, разделенные по отношению к общему размеру. "Исходный код"

Гистограммы. Гистограмма - это тип графика, который широко используется в математике, особенно в статистике. Гистограмма представляет частоту возникновения определенных явлений, которые лежат в определенном диапазоне значений, которые расположены в последовательных и фиксированных интервалах. Частота появления данных представлена ​​полосой, поэтому она очень похожа на гистограмму.

Нормальная гистограмма. Важно отметить, что гистограммы не являются гистограммами. На гистограмме высота столбца представляет собой числовое значение, но каждая полоса сама по себе представляет категорию - то, что нельзя подсчитать, усреднить или суммировать.

Например: давайте рассмотрим простой пример, чтобы лучше понять, что у нас есть данные с числовыми значениями, и мы хотим увидеть их распределение с помощью нормальной гистограммы.

import matplotlib.pyplot as plt
from numpy.random import normal
gaussian_numbers = normal(size=1000)
plt.hist(gaussian_numbers)
plt.title(“Gaussian Histogram”)
plt.xlabel(“Value”)
plt.ylabel(“Frequency”)
plt.show();

Просмотр одного распределения помогает нам составить представление о данных, но как насчет двух?

Наложенная гистограмма: Наложенная гистограмма используется для сравнения распределения двух числовых данных любого конкретного набора данных.

Например: возьмем еще один простой пример. В следующем примере показано распределение гауссовских и однородных данных.

import matplotlib.pyplot as plt
from numpy.random import normal, uniform
gaussian_numbers = normal(size=1000)
uniform_numbers = uniform(low=-3, high=3, size=1000)
plt.hist(gaussian_numbers, bins=20, histtype='stepfilled', normed=True, color='b', label='Gaussian')
plt.hist(uniform_numbers, bins=20, histtype='stepfilled', normed=True, color='r', alpha=0.5, label='Uniform')
plt.title("Gaussian/Uniform Histogram")
plt.xlabel("Value")
plt.ylabel("Probability")
plt.legend()
plt.show();

Два распределения выглядят похожими, но не одинаковыми (третий цвет - это место, где они перекрываются).

Seaborn: Seaborn - это библиотека визуализации данных Python, основанная на matplotlib. Он предоставляет высокоуровневый интерфейс для рисования привлекательных и информативных статистических графиков.

Диаграммы разброса. Диаграммы разброса используются для построения точек данных на горизонтальной и вертикальной осях, чтобы показать, насколько одна переменная зависит от другой.

Например: давайте возьмем пример подсказок набора данных с total_bill и tip, и мы хотим увидеть связь между этими двумя значениями total_bill и tip.

import seaborn as sns; sns.set()
import matplotlib.pyplot as plt
tips = sns.load_dataset("tips")
ax = sns.scatterplot(x="total_bill", y="tip", data=tips)

Цветовые группировки: Цветовые группировки используются для данных более чем одной категории, как в примере выше, но мы хотим, чтобы total_bill и tip относились к распределению данных цветовой группировки, разделенным на обед и ужин.

ax = sns.scatterplot(x="total_bill", y="tip", hue="time", 
                     data=tips)

Кодировка размера: кодировка размера, используемая для обеспечения плотности и размера при распределении данных.

Например: взяв тот же пример выше для распределения total_bill и чаевых, и этот пример также показывает плотность и размер их относительных данных.

cmap = sns.cubehelix_palette(dark=.3, light=.8, as_cmap=True)
ax = sns.scatterplot(x="total_bill", y="tip",
                     hue="size", size="size",
                     sizes=(20, 200), palette=cmap,
                     legend="full", data=tips)

Тепловая карта: тепловая карта - это двухмерное графическое представление данных, в котором отдельные значения, содержащиеся в матрице, представлены в виде цветов.

Например: давайте возьмем набор данных о рейсах, в котором у нас есть количество пассажиров, месяцев и года, и мы хотим проанализировать их количество. пассажиров в месяцах к соответствующему году.

import numpy as np; np.random.seed(0)
import seaborn as sns; sns.set()
flights = sns.load_dataset("flights")
flights = flights.pivot("month", "year", "passengers")
ax = sns.heatmap(flights)

Аннотируйте каждую ячейку числовым значением, используя целочисленное форматирование:

ax = sns.heatmap(flights, annot=True, fmt="d")

Тепловая карта этого рейса ясно показывает, что нет. пассажиров в полете было 112 в январе 1949, 115 в январе 1950 и так далее.

Ящичные диаграммы. Ящичковая диаграмма, вероятно, является одним из наиболее распространенных типов графики. Он дает красивую сводку одной или нескольких числовых переменных. Линия, разделяющая поле на 2 части, представляет медианное значение данных. В конце поля показаны верхний и нижний квартили. Крайние линии показывают самое высокое и самое низкое значение, исключая выбросы. Обратите внимание, что прямоугольная диаграмма скрывает количество значений.

Например: для лучшего понимания блочного построения, давайте возьмем подсказки по набору данных, в которых один из столбцов - это total_bill. Используя блочные диаграммы, мы проанализируем статистическое распределение total_bill.

import seaborn as sns
sns.set(style="whitegrid")
tips = sns.load_dataset("tips")
ax = sns.boxplot(x=tips["total_bill"])

И если нам нужно статистическое распределение total_bill по дням, то мы можем использовать многоблочный график с разными цветами для разных дней.

ax = sns.boxplot(x="day", y="total_bill", data=tips)

Графики скрипки: График скрипки используется для визуализации распределения данных и их плотности вероятности. Эта диаграмма представляет собой комбинацию прямоугольной диаграммы и диаграммы плотности, которая повернута и размещена с каждой стороны, чтобы показать форму распределения данных.

На следующей диаграмме показано, как коробчатый сюжет и сюжет для скрипки почти одинаковы.

Например: возьмем тот же набор данных Билла и посмотрим, как он распределяется на скрипке.

import seaborn as sns
sns.set(style=”whitegrid”)
tips = sns.load_dataset(“tips”)
ax = sns.violinplot(x=tips[“total_bill”])

И если нам нужно статистическое распределение total_bill по дням, то мы можем использовать график с несколькими скрипками с разными цветами для разных дней с их плотностью вероятности.

ax = sns.violinplot(x=”day”, y=”total_bill”, data=tips)

Это несколько быстрых и простых визуализаций данных с использованием библиотек Python Matplotlib и Seaborn. Спасибо за прочитанное. Надеюсь, вам понравился этот пост, и вы узнали что-то новое и полезное. Если вам это нравится, пожалуйста, удерживайте кнопку хлопка и поделитесь им с друзьями.