Анализ данных часто включает в себя изучение взаимосвязей между переменными, чтобы получить представление о закономерностях и зависимостях в данных. Тепловые карты, корреляционные матрицы и коррелограммы — мощные визуальные инструменты, которые могут помочь нам в этом. В этой статье мы углубимся в эти методы и продемонстрируем, как их создавать с помощью Python и Seaborn с реальным набором данных о продажах.

Понимание тепловых карт

Тепловая карта – это графическое представление данных в виде матрицы, где значения представлены с использованием цветовой шкалы. Тепловые карты особенно полезны для визуализации величины значений в наборе данных и выявления закономерностей или тенденций.

Создание тепловой карты с помощью Seaborn

Чтобы создать тепловую карту на Python, мы воспользуемся библиотекой Seaborn. Предположим, у нас есть набор данных о продажах с такими переменными, как «Месяц», «Продажи за единицу», «Цена ($),» «Adexp (000 долларов США)» и «Promexp (000 долларов США)». переменные путем визуализации их корреляций.

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Create a DataFrame from the provided sales data
data = {
    'Month': [i for i in range(1, 25)],
    'Unit Sales': [73959, 71544, 78587, 80364, 78771, 71986, 74885, 73345, 76659, 71880, 73598, 74893, 69003, 78542, 72543, 74247, 76253, 72582, 69022, 76200, 69701, 77005, 70987, 75643],
    'Price ($)': [8.75, 8.99, 7.50, 7.25, 7.40, 8.50, 8.40, 7.90, 7.25, 8.70, 8.40, 8.10, 8.40, 7.40, 8.00, 8.30, 8.10, 8.20, 8.99, 7.99, 8.50, 7.90, 7.99, 8.25],
    'Adexp ($000)': [50.04, 50.74, 50.14, 50.27, 51.25, 50.65, 50.87, 50.15, 48.24, 50.19, 51.11, 51.49, 50.10, 49.24, 50.04, 49.46, 51.62, 49.78, 48.60, 49.00, 48.00, 54.00, 48.70, 50.00],
    'Promexp ($000)': [61.13, 60.19, 59.16, 60.38, 59.71, 59.88, 60.14, 60.08, 59.90, 59.68, 59.83, 59.77, 59.29, 60.40, 59.89, 60.06, 60.51, 58.93, 60.09, 61.00, 59.00, 59.50, 58.00, 60.50]
}

df = pd.DataFrame(data)

# Calculate the correlation matrix
correlation_matrix = df.corr()
print(correlation_matrix)
# Create a heatmap
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', linewidths=0.5)
plt.title('Correlation Heatmap')
plt.show()
                 Month    Unit Sales  Price ($)  Adexp ($000)  Promexp ($000)
Month           1.000000   -0.257635   0.074756     -0.161949       -0.276877
Unit Sales     -0.257635    1.000000  -0.786759      0.320547        0.355050
Price ($)       0.074756   -0.786759   1.000000     -0.023577        0.074222
Adexp ($000)   -0.161949    0.320547  -0.023577      1.000000        0.101075
Promexp ($000) -0.276877    0.355050   0.074222      0.101075        1.000000

Понимание коррелограмм

Коррелограмма – это графическое представление корреляционной матрицы. Он дает общее представление о том, как коррелируют переменные и особенно полезен при работе с несколькими переменными.

Создание коррелограммы с помощью Seaborn

Мы можем создать коррелограмму, используя функцию pairplot Сиборна, которая генерирует диаграммы рассеяния для пар переменных и гистограммы для отдельных переменных.

# Create a correlogram using pairplot
sns.set(style='whitegrid')
sns.pairplot(data=df)
plt.suptitle('Correlogram')
plt.show()

Заключение

Тепловые карты, корреляционные матрицы и коррелограммы — ценные инструменты для визуализации и понимания взаимосвязей внутри наборов данных. В этой статье мы рассмотрели, как создавать эти визуализации с помощью Python и Seaborn с реальным набором данных о продажах. Эти методы необходимы для исследования данных, распознавания образов и принятия обоснованных решений в проектах анализа данных.

Включив эти визуализации в свой набор инструментов для анализа данных, вы будете лучше подготовлены к получению ценной информации и принятию решений на основе данных.

На простом английском языке

Спасибо, что вы являетесь частью нашего сообщества! Прежде чем уйти: