Анализ данных часто включает в себя изучение взаимосвязей между переменными, чтобы получить представление о закономерностях и зависимостях в данных. Тепловые карты, корреляционные матрицы и коррелограммы — мощные визуальные инструменты, которые могут помочь нам в этом. В этой статье мы углубимся в эти методы и продемонстрируем, как их создавать с помощью Python и Seaborn с реальным набором данных о продажах.
Понимание тепловых карт
Тепловая карта – это графическое представление данных в виде матрицы, где значения представлены с использованием цветовой шкалы. Тепловые карты особенно полезны для визуализации величины значений в наборе данных и выявления закономерностей или тенденций.
Создание тепловой карты с помощью Seaborn
Чтобы создать тепловую карту на Python, мы воспользуемся библиотекой Seaborn. Предположим, у нас есть набор данных о продажах с такими переменными, как «Месяц», «Продажи за единицу», «Цена ($),» «Adexp (000 долларов США)» и «Promexp (000 долларов США)». переменные путем визуализации их корреляций.
import pandas as pd import seaborn as sns import matplotlib.pyplot as plt # Create a DataFrame from the provided sales data data = { 'Month': [i for i in range(1, 25)], 'Unit Sales': [73959, 71544, 78587, 80364, 78771, 71986, 74885, 73345, 76659, 71880, 73598, 74893, 69003, 78542, 72543, 74247, 76253, 72582, 69022, 76200, 69701, 77005, 70987, 75643], 'Price ($)': [8.75, 8.99, 7.50, 7.25, 7.40, 8.50, 8.40, 7.90, 7.25, 8.70, 8.40, 8.10, 8.40, 7.40, 8.00, 8.30, 8.10, 8.20, 8.99, 7.99, 8.50, 7.90, 7.99, 8.25], 'Adexp ($000)': [50.04, 50.74, 50.14, 50.27, 51.25, 50.65, 50.87, 50.15, 48.24, 50.19, 51.11, 51.49, 50.10, 49.24, 50.04, 49.46, 51.62, 49.78, 48.60, 49.00, 48.00, 54.00, 48.70, 50.00], 'Promexp ($000)': [61.13, 60.19, 59.16, 60.38, 59.71, 59.88, 60.14, 60.08, 59.90, 59.68, 59.83, 59.77, 59.29, 60.40, 59.89, 60.06, 60.51, 58.93, 60.09, 61.00, 59.00, 59.50, 58.00, 60.50] } df = pd.DataFrame(data) # Calculate the correlation matrix correlation_matrix = df.corr() print(correlation_matrix) # Create a heatmap plt.figure(figsize=(10, 8)) sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', linewidths=0.5) plt.title('Correlation Heatmap') plt.show() Month Unit Sales Price ($) Adexp ($000) Promexp ($000) Month 1.000000 -0.257635 0.074756 -0.161949 -0.276877 Unit Sales -0.257635 1.000000 -0.786759 0.320547 0.355050 Price ($) 0.074756 -0.786759 1.000000 -0.023577 0.074222 Adexp ($000) -0.161949 0.320547 -0.023577 1.000000 0.101075 Promexp ($000) -0.276877 0.355050 0.074222 0.101075 1.000000
Понимание коррелограмм
Коррелограмма – это графическое представление корреляционной матрицы. Он дает общее представление о том, как коррелируют переменные и особенно полезен при работе с несколькими переменными.
Создание коррелограммы с помощью Seaborn
Мы можем создать коррелограмму, используя функцию pairplot
Сиборна, которая генерирует диаграммы рассеяния для пар переменных и гистограммы для отдельных переменных.
# Create a correlogram using pairplot sns.set(style='whitegrid') sns.pairplot(data=df) plt.suptitle('Correlogram') plt.show()
Заключение
Тепловые карты, корреляционные матрицы и коррелограммы — ценные инструменты для визуализации и понимания взаимосвязей внутри наборов данных. В этой статье мы рассмотрели, как создавать эти визуализации с помощью Python и Seaborn с реальным набором данных о продажах. Эти методы необходимы для исследования данных, распознавания образов и принятия обоснованных решений в проектах анализа данных.
Включив эти визуализации в свой набор инструментов для анализа данных, вы будете лучше подготовлены к получению ценной информации и принятию решений на основе данных.
На простом английском языке
Спасибо, что вы являетесь частью нашего сообщества! Прежде чем уйти:
- Обязательно аплодируйте и следуйте за автором! 👏
- Еще больше контента вы можете найти на PlainEnglish.io 🚀
- Подпишитесь на нашу бесплатную еженедельную рассылку. 🗞️
- Следуйте за нами в Twitter(X), LinkedIn, YouTube и Discord.