Что мы будем изучать сегодня?

В этой статье мы узнаем, как создать точечную диаграмму с помощью Seaborn.

На точечной диаграмме точки показывают значения двух отдельных числовых переменных на оси x и оси y. Диаграммы рассеяния необходимы в статистике, поскольку они могут отображать силу корреляции между двумя переменными (X и Y).

Почему важно учиться?

Учиться необходимо по следующим причинам:

  • Он показывает взаимосвязь (положительную и отрицательную) и тенденцию между двумя переменными.
  • Это помогает найти минимум, максимум и выбросы точки данных.
  • Он показывает, насколько одна переменная влияет на другую переменную.
  • Это помогает вам прогнозировать поведение одной переменной (зависимой переменной) в зависимости от измерения другой переменной (независимой).

Как мы можем достичь сегодняшней цели?

План на сегодня такой:

  • График рассеяния с использованием Seaborn
  • Диаграмма рассеяния с параметром hue
  • Точечная диаграмма с параметром оттенок и размер
  • Бонус с повтором
  • Заключение

Давайте импортируем необходимую библиотеку.

Вход

import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns
sns.set(style=”darkgrid”)

Мы будем использовать набор данных подсказок для этой статьи. Вы можете загрузить эти наборы данных прямо из Seaborn.

Вход

tips = sns.load_dataset(‘tips’)
tips.head()

Выход

График рассеяния с использованием Seaborn

Чтобы построить точечную диаграмму, мы будем использовать метод Seaborn scatterplot, используя два числовых столбца по осям x и y соответственно.

Это показывает положительную корреляцию, поскольку мы видим, что при увеличении сумма чаевых также увеличивается.

Вход

sns.scatterplot(x=’total_bill’, y=’tip’, data=tips);

Выход

Диаграмма рассеяния с параметром hue

Другой важный параметр, оттенок, используется для кодирования цвета. Это означает, что если мы установим оттенок равным полу (столбец), он покажет график рассеяния для каждого мужчины и женщины.

Вход

sns.scatterplot(x=’total_bill’, y=’tip’, data=tips, hue=’sex’);

Выход

Точечная диаграмма с параметром оттенок и размер

Параметр hue можно использовать с параметром size. Мы можем установить оттенок равным размеру (столбец в наборе данных) и size равным размеру (столбец в наборе данных).

В столбце размеров есть пять уникальных размеров (1,2,3,4,5,6), показывающих шесть разных цветов с разными размерами (от 1 до 6).

Вход

tips[‘size’].unique()
sns.scatterplot(x=’total_bill’, y=’tip’, data=tips, hue=’size’, size=’size’, palette=’viridis’)
plt.show()

Выход

Приведенный выше график мы можем визуализировать по-разному, например, с разными размерами, мы также можем различать, какая точка данных предназначена для мужчин и женщин. Для этого нам нужно добавить несколько параметров.

Мы установим hue равным полу, size равным размеру (имя столбца в наборе данных), а размеры — это параметр, в котором мы указать диапазон (20 200) для размера точек данных.

Вход

plt.figure(figsize=(10,7))
sns.scatterplot(x='total_bill', y='tip', data=tips, hue='sex', size='size', sizes=(20,200))
plt.show()sns.scatterplot(x=’total_bill’, y=’tip’, data=tips, hue=’sex’, size=’size’, sizes=(20,200))

Выход

Бонус

Мы можем использовать relplot, чтобы объединить диаграмму рассеяния и FacetGrid (объект FacetGrid принимает фрейм данных в качестве входных данных, а имена переменных, составляющих размеры строки, столбца или оттенка сетки.)

Чтобы визуализировать relplot, мы передадим несколько параметров в метод relplot, включая col и row.

Вход

sns.relplot(x=’total_bill’, y=’tip’, data=tips, hue=’day’, col=’time’, row=’sex’);

Выход

Заключение

В этой статье был рассмотрен график рассеяния с использованием Seaborn. Спасибо, что прочитали, надеюсь, вы нашли это полезным.

Остальные мои статьи смотрите здесь.