Что мы будем изучать сегодня?
В этой статье мы узнаем, как создать точечную диаграмму с помощью Seaborn.
На точечной диаграмме точки показывают значения двух отдельных числовых переменных на оси x и оси y. Диаграммы рассеяния необходимы в статистике, поскольку они могут отображать силу корреляции между двумя переменными (X и Y).
Почему важно учиться?
Учиться необходимо по следующим причинам:
- Он показывает взаимосвязь (положительную и отрицательную) и тенденцию между двумя переменными.
- Это помогает найти минимум, максимум и выбросы точки данных.
- Он показывает, насколько одна переменная влияет на другую переменную.
- Это помогает вам прогнозировать поведение одной переменной (зависимой переменной) в зависимости от измерения другой переменной (независимой).
Как мы можем достичь сегодняшней цели?
План на сегодня такой:
- График рассеяния с использованием Seaborn
- Диаграмма рассеяния с параметром hue
- Точечная диаграмма с параметром оттенок и размер
- Бонус с повтором
- Заключение
Давайте импортируем необходимую библиотеку.
Вход
import pandas as pd from matplotlib import pyplot as plt import seaborn as sns sns.set(style=”darkgrid”)
Мы будем использовать набор данных подсказок для этой статьи. Вы можете загрузить эти наборы данных прямо из Seaborn.
Вход
tips = sns.load_dataset(‘tips’) tips.head()
Выход
График рассеяния с использованием Seaborn
Чтобы построить точечную диаграмму, мы будем использовать метод Seaborn scatterplot, используя два числовых столбца по осям x и y соответственно.
Это показывает положительную корреляцию, поскольку мы видим, что при увеличении сумма чаевых также увеличивается.
Вход
sns.scatterplot(x=’total_bill’, y=’tip’, data=tips);
Выход
Диаграмма рассеяния с параметром hue
Другой важный параметр, оттенок, используется для кодирования цвета. Это означает, что если мы установим оттенок равным полу (столбец), он покажет график рассеяния для каждого мужчины и женщины.
Вход
sns.scatterplot(x=’total_bill’, y=’tip’, data=tips, hue=’sex’);
Выход
Точечная диаграмма с параметром оттенок и размер
Параметр hue можно использовать с параметром size. Мы можем установить оттенок равным размеру (столбец в наборе данных) и size равным размеру (столбец в наборе данных).
В столбце размеров есть пять уникальных размеров (1,2,3,4,5,6), показывающих шесть разных цветов с разными размерами (от 1 до 6).
Вход
tips[‘size’].unique() sns.scatterplot(x=’total_bill’, y=’tip’, data=tips, hue=’size’, size=’size’, palette=’viridis’) plt.show()
Выход
Приведенный выше график мы можем визуализировать по-разному, например, с разными размерами, мы также можем различать, какая точка данных предназначена для мужчин и женщин. Для этого нам нужно добавить несколько параметров.
Мы установим hue равным полу, size равным размеру (имя столбца в наборе данных), а размеры — это параметр, в котором мы указать диапазон (20 200) для размера точек данных.
Вход
plt.figure(figsize=(10,7)) sns.scatterplot(x='total_bill', y='tip', data=tips, hue='sex', size='size', sizes=(20,200)) plt.show()sns.scatterplot(x=’total_bill’, y=’tip’, data=tips, hue=’sex’, size=’size’, sizes=(20,200))
Выход
Бонус
Мы можем использовать relplot, чтобы объединить диаграмму рассеяния и FacetGrid (объект FacetGrid принимает фрейм данных в качестве входных данных, а имена переменных, составляющих размеры строки, столбца или оттенка сетки.)
Чтобы визуализировать relplot, мы передадим несколько параметров в метод relplot, включая col и row.
Вход
sns.relplot(x=’total_bill’, y=’tip’, data=tips, hue=’day’, col=’time’, row=’sex’);
Выход
Заключение
В этой статье был рассмотрен график рассеяния с использованием Seaborn. Спасибо, что прочитали, надеюсь, вы нашли это полезным.
Остальные мои статьи смотрите здесь.