Здравствуйте, читатели! В этом блоге рассказывается об основах визуализации данных, типах графиков и практической реализации визуализации с использованием библиотек Python, таких как matplotlib и seaborn.

Визуализация данных

Под визуализацией данных понимается представление данных в виде графиков, позволяющее получить более полное представление о данных и более разумно проанализировать данные.

Общеизвестно и доказано, что визуальное представление чего-либо позволяет усвоить гораздо больше, чем чтение или прослушивание. Точно так же и в случае с данными, когда мы визуализируем и изучаем их, мы можем лучше понять их. Визуализация данных облегчает понимание того, «о чем они говорят» или «какова цель данных». Для изучения данных путем визуализации мы используем графики.

Графики

График — это инструмент визуализации для представления данных визуальным способом, который представляет эти данные в виде информации, представляя ее в виде ряда координат на многомерной оси.

Давайте посмотрим на некоторые основные графики, которые можно использовать для визуализации данных —

  1. Линейный график

Линейный график . также известная как линейная диаграмма, представляет собой набор точек, связанных друг с другом. Этот тип графиков используется для визуализации изменений стоимости чего-либо с течением времени или любого другого типа ограничения.

Например -

На рисунке показано изменение курса акций компании за семь дней. Линия рисуется путем соединения координат (день, цена) друг с другом на линейном графике .

2. Гистограмма

Гистограмма представляет собой представление любого типа категориальных данных в виде прямоугольных столбцов, где высота каждого столбца зависит от частоты/общего количества этой конкретной категории в данных.

Например -

На рисунке показана гистограмма видов домашних животных, принадлежащих людям в определенном месте. Мы видим, что кошки чаще всего владеют домашними животными, а кролики — реже всего .

3.Гистограмма

Гистограмма представляет собой представление частоты данных, попадающих в определенный диапазон категорий. Этот тип графика берет данные с непрерывными значениями, группирует их в несколько диапазонов (ячеек), а затем представляет частоту данных, которые попадают в эту конкретную ячейку.

Например -

Рисунок здесь представляет собой гистограмму непрерывных данных о весах, разделенных на 9 интервалов (131–133, 133–135, 135–137 и т. д. до 149), и количество весов, попадающих в определенный интервал. представлен идентификатором высоты этой корзины .

4. Точечный график

Точечная диаграмма представляет собой представление точек данных на многомерной оси. Это простой график, который представляет каждый токен данных в виде координатной точки на графике.

На рисунке показана диаграмма рассеяния, представляющая точки данных в виде координат в 2-мерном пространстве (ось x, ось y).

5. Тепловая карта

Тепловая карта — это визуальное представление частоты/плотности данных с помощью некоторых цветовых кодов в двухмерном пространстве. Плотность данных представлена ​​в виде интенсивности цвета области на графике.

Например -

На рисунке показана тепловая карта определенных данных, построенных по месяцам и годам . Мы видим, что интенсивность окраски бабочки июля 1960 г. максимальна и, следовательно, частота данных в этот период наибольшая.

6. Блочная диаграмма

Блочная диаграмма представляет собой сводку данных, в которой можно определить распределение данных по всей частоте их значений. Это самый стандартный способ анализа выбросов (нечетных) значений в данных. Блочная диаграмма отображает данные в виде распределения в виде пяти случаев, т. е. «минимум», «первый квартиль» (Q1), «медиана», «третий квартиль» (Q3) и «максимум». Область между Q1-Q3 известна как межквартильный диапазон (IQR), который содержит 50% всех данных.

Давайте теперь посмотрим, как мы можем построить эти графики, используя Matplotlib и Seborn в Python…

Матплотлиб

Matplotlib — это библиотека Python, которая используется для представления или визуализации графиков на двумерной оси (Примечание: мы также можем строить трехмерные графики с помощью matplot3d). Эту библиотеку можно использовать для создания статических и интерактивных графиков в python. Это самая основная и простая библиотека, используемая для визуализации данных в python. Эта библиотека имеет числовое расширение с другой библиотекой на питоне под названием «numpy».

Теперь мы будем использовать matplotlib для создания графиков по данным, которые у нас есть в блокноте Jupyter Anaconda, который поставляется с предустановленной программой matplotlib.

Сначала импортируйте библиотеку построения графиков matplotlib для построения данных —

импортировать matplotlib.pyplot как plt

Давайте теперь посмотрим на некоторые графики, созданные с помощью Matplotlib —

  • Линейный график

  • Гистограмма

  • Гистограмма

  • Точечная диаграмма

Сиборн

Seaborn — это графическая библиотека, построенная на базе matplotlib. Он предлагает еще несколько лучших инструментов и способов, с помощью которых мы можем визуализировать наши данные, чтобы лучше понять их. Он предлагает отображение цветов и фасетирование данных.

Сначала импортируйте морскую библиотеку —

  • Тепловая карта

  • БоксПлот

Это все о графиках в этом блоге. Надеюсь, это было информативно. Спасибо за чтение…!!!

Ссылка на Github для справки: здесь