Это общепризнанный факт, что данные в необработанном виде выглядят довольно беспорядочно для людей, которые не интересуются данными или не понимают их. Как же тогда мы можем сделать данные презентабельными и понятными для таких людей?

«Способность визуализировать данные является важной частью головоломки исследования и использования данных ... опасения поставщиков данных по поводу того, что их данные будут упрощены, неправильно поняты или искажены, также применимы к процессу создания визуализаций, даже простых ... Визуализация данных меняет то, как данные понятны и в целом повышают интерес к данным, что будет способствовать разработке большего количества более качественных данных ». - Роберт Косара

Визуализация данных стала неотъемлемой частью нашей жизни как специалистов по обработке и анализу данных, искусственного интеллекта и инженеров по машинному обучению. Это потому, что мы проводим большую часть времени на работе, объясняя что-то нашим коллегам или руководителям и делая презентации о нашей работе и выводах. Данные в необработанном виде чаще всего выглядят как длинный список случайных чисел, изображений или аудиофайлов для людей, которые ничего не знают или не интересуются ими. Наша задача состоит в том, чтобы помочь этим людям понять смысл имеющихся у нас данных и помочь им сделать полезные выводы из имеющихся у нас данных. Мы рассказываем истории о прошлом и будущем с помощью имеющихся данных, но если у нас нет визуализаций, что же тогда отличает нас от прорицателей или безумных старых оракулов? В этой статье я расскажу вам о важности визуализации данных, поделюсь некоторыми советами, которые можно использовать для создания профессиональных визуализаций, а также некоторыми инструментами, библиотеками и программным обеспечением, которые можно использовать для создания элегантных визуализаций.

Что такое визуализация данных и почему важно визуализировать данные?

«Визуализация дает вам ответы на вопросы, о которых вы даже не подозревали». - Бен Шнайдерман

Визуализация данных - это процесс представления ваших данных в визуальных или графических форматах. Этот процесс важен, потому что он помогает вам передать корреляцию различных данных через изображения. Человеческий разум легко уловит понимание инфографики и будет дуться при просмотре сотен строк необработанных данных в электронной таблице, файле CSV или базе данных. Визуализируя данные, можно легко обнаружить тенденции и закономерности, и это важно, особенно на этапе исследовательского анализа данных в науке о данных. Визуализация данных важна не только для специалистов по обработке данных или аналитиков и инженеров AI / ML, это навык, которому должен научиться каждый, кто работает с данными в технической сфере или за ее пределами.

Использование визуализации данных

«Самая большая ценность картины - это когда она заставляет нас замечать то, чего мы никогда не ожидали увидеть». -Джон Тьюки

Визуализация данных используется почти во всех областях, где необходимо объяснить работу или результаты, связанные с использованием данных. Каждый раз, когда человеку необходимо сделать выводы или сделать выводы из данных, которые он или она имеет для себя или группы людей, необходимо использовать визуальное представление имеющихся данных. Однако визуализация данных не предназначена для эстетических целей, представление данных в графической форме выполняется по нескольким причинам, о которых я расскажу ниже.

  • Выявление корреляций. Очень сложно определить корреляции между двумя или более вещами, когда вы пытаетесь это сделать, не визуализируя имеющиеся у вас данные. Выявление взаимосвязей или корреляций является очень важным этапом анализа данных, поэтому визуализация данных важна, если вы стремитесь получить наилучшее понимание ваших данных на этом этапе.
  • Наблюдение за изменениями с течением времени. Визуализируя данные, мы можем наблюдать тенденции или изменения закономерностей в течение определенного времени с помощью диаграмм временных рядов. Это очень помогает при просмотре прошлых данных, чтобы делать критические прогнозы или предположения о вероятных событиях в будущем. Это может помочь организациям или частным лицам масштабировать свои продукты или услуги для достижения желаемого предела в будущем.
  • Определение частот. Определение частот - одно из основных применений визуальных графиков. Это помогает нам определить, как часто мы делаем что-то, чтобы знать, где нужно больше усилий, времени и преданности делу, а где расслабиться. Компании также могут использовать частотные графики, чтобы проверить количество продаж, совершенных в определенное время, получить некоторую аналитическую информацию и масштабировать свои маркетинговые процессы в соответствии с требованиями потребителей.

Типы диаграмм визуализации: Теперь, когда мы поняли, что такое визуализация, мы должны узнать о различных типах диаграмм визуализации, которые существуют для нас, чтобы рассказывать наши истории о данных, которые у нас есть. Существуют сотни диаграмм визуализации, и мы, скорее всего, никогда не встретим некоторые из них. Тем не менее, я поделюсь несколькими известными мне популярными в безо всяком порядке важности или интереса.

  • Линейные диаграммы. Линейная диаграмма или линейная диаграмма, линейная диаграмма или кривая диаграмма - это тип диаграммы, на которой информация отображается в виде серии точек данных, называемых маркерами, соединенных отрезками прямых линий. Это основной тип диаграммы, распространенный во многих областях. Он похож на диаграмму рассеяния, за исключением того, что точки измерения упорядочены (обычно по их значению по оси x) и соединены отрезками прямых линий. Линейный график часто используется для визуализации тенденции данных за интервалы времени (временного ряда), поэтому линия часто проводится в хронологическом порядке. В этих случаях они называются графиками выполнения. - Википедия
  • Столбчатая диаграмма: столбчатая диаграмма или гистограмма из Википедии - это диаграмма или график, который представляет категориальные данные с прямоугольными столбцами, высота или длина которых пропорциональны значениям, которые они представляют. Полосы могут быть нанесены вертикально или горизонтально. Вертикальную гистограмму иногда называют столбчатой ​​диаграммой. Гистограмма показывает сравнения между отдельными категориями. Одна ось диаграммы показывает конкретные сравниваемые категории, а другая ось представляет измеренное значение. Некоторые гистограммы представляют собой столбцы, сгруппированные в группы по более чем одной, показывая значения более чем одной измеряемой переменной.
  • Гистограмма: гистограмма в значительной степени приближенно представляет собой распределение числовых данных. Он очень похож на гистограмму, но измеряет частоту, а не тенденции во времени. Вы можете узнать больше о гистограммах на странице Википедии.
  • Точечная диаграмма: согласно Википедии, точечная диаграмма - это тип графика или математической диаграммы, использующей декартовы координаты для отображения значений обычно двух переменных для набора данных. Если точки закодированы (цвет / форма / размер), может отображаться одна дополнительная переменная. Данные отображаются в виде набора точек, каждая из которых имеет значение одной переменной, определяющей положение на горизонтальной оси, и значение другой переменной, определяющей положение на вертикальной оси.
  • Круговая диаграмма / кольцевая диаграмма. Круговая диаграмма - это круговая статистическая диаграмма, которая разделена на части для иллюстрации числовых пропорций. На круговой диаграмме длина дуги каждого среза (и, следовательно, его центральный угол и площадь) пропорциональна величине, которую он представляет. Хотя он назван из-за сходства с нарезанным пирогом, существуют варианты его представления - Википедия. Однако кольцевая диаграмма - это просто круговая диаграмма с полым центром, предназначенная для четкого отображения срезов или пропорций и добавления эстетического эффекта к традиционному стилю круговой диаграммы.
  • Тепловая карта. Тепловая карта - это метод визуализации данных, который показывает масштабы явления в виде цвета в двух измерениях. Изменение цвета может быть по оттенку или интенсивности, давая читателю очевидные визуальные подсказки о том, как явление группируется или изменяется в пространстве. - Википедия
  • Карты: с данными, которые включают элемент местоположения, мы можем использовать элегантную визуализацию карты мира. Эти типы карт имеют цветовую кодировку, чтобы показать области большей интенсивности с более темным оттенком и наоборот. Он идеально подходит для визуализации распространения вирусов, так как широко используется для визуализации регионов, затронутых распространением COVID-19, среди прочего.

На что следует обратить внимание при визуализации данных

«Визуализируя информацию, мы превращаем ее в пейзаж, который вы можете исследовать своими глазами. Этакая информационная карта. А когда вы теряетесь в информации, вам пригодится информационная карта ». - Дэвид МакКэндлесс

Эффективная визуализация данных - решающий заключительный этап анализа данных. Без этого важные идеи и сообщения могут быть потеряны. Однако есть немало вещей, которые должен знать каждый, кто хочет визуализировать как профессионал.

  • Выберите визуализацию, которая лучше всего рассказывает вашу историю. Из множества типов диаграмм, с помощью которых вы можете визуализировать свои данные, выберите ту, которая лучше всего представляет ваши данные. Это очень важно, если вы хотите извлечь полезную информацию из своих данных. Это сопровождается утверждением, что у вас должен быть хороший выбор цвета. Визуализации с цветовой кодировкой очень помогают легко распознавать интенсивности, паттерны и кластеры
  • Включите сравнения. Это может быть самый краткий из наших методов визуализации данных, но, тем не менее, он важен: когда вы представляете свою информацию и идеи, вы должны включать как можно больше реальных сравнений. Представляя вместе два графика, диаграммы, диаграммы, каждый из которых показывает разные версии одной и той же информации за определенный период времени, например, ежемесячные отчеты о продажах за 2016 и 2017 годы, представленные рядом друг с другом, вы предоставите четкое руководство по влиянию ваши данные, выделяя сильные и слабые стороны, тенденции, пики и спады, над которыми каждый может задуматься и действовать.
  • Знайте свою аудиторию: создавая визуализацию, определите целевую аудиторию, которой нужно будет сделать выводы или получить представление о ваших визуализациях. Кто будет просматривать эти данные? С какими проблемами они сталкиваются и какие препятствия мешают им преодолеть эти проблемы? Знайте это и работайте над созданием визуализаций, которые достаточно интересны для вашей аудитории и могут помочь им получить максимальное представление или понимание ваших данных.

Лучшие инструменты и программное обеспечение для визуализации данных

Ваши визуализации хороши ровно настолько, насколько хороши инструменты или программное обеспечение, которые вы используете для их создания. Для создания качественных и элегантных визуализаций необходимо использовать хорошие инструменты и программное обеспечение для визуализации. Вот несколько лучших инструментов и программного обеспечения, которые я лично использовал и которые могу порекомендовать.

  • Библиотеки с открытым исходным кодом. Существует множество библиотек с открытым исходным кодом, которые поставляются с языками программирования, которые мы можем использовать для визуализации наших данных бесплатно. Обычно они очень просты в использовании и быстро внедряются. Это стандартный метод визуализации для большинства программистов, и они предпочитают его из-за гибкости, которая с ним связана. Среди популярных - Матплотлиб, Сиборн, Боке, Сюжет и GGPlot.
  • Приложения для работы с электронными таблицами. Многие люди игнорируют это, но приложения для работы с электронными таблицами, такие как Microsoft Excel и Google Таблицы, имеют встроенные инструменты визуализации, которые отлично подходят для представления данных в графических или визуальных формах. Для людей с небольшими навыками программирования или без них, которые также не могут позволить себе платить за инструменты визуализации, это должно быть лучшим выбором.
  • Tableau: На мой взгляд, наиболее рекомендуемым программным обеспечением для создания всевозможных сложных, но элегантных визуализаций и аналитических панелей является Tableau. Вы можете легко и быстро создавать элегантные пузырьковые диаграммы, круговые диаграммы, линейные диаграммы, тепловые карты или карты проекций Земли. Tableau прост в использовании, и существует множество руководств, которые расскажут, как правильно использовать его для максимальной производительности.
  • Power BI: Power BI - это служба бизнес-аналитики от Microsoft. Он нацелен на предоставление интерактивных визуализаций и возможностей бизнес-аналитики с достаточно простым интерфейсом, чтобы конечные пользователи могли создавать свои отчеты и информационные панели.

«Вы можете добиться простоты в разработке эффективных диаграмм, графиков и таблиц, помня три основных принципа: сдерживать, сокращать, подчеркивать». - Гарр Рейнольдс

Я надеюсь, что смог просветить вас о важности визуализации ваших данных и смог поделиться полезными методами и ресурсами, которые могут помочь вам извлечь максимальную пользу из визуализации данных, чтобы рассказать о них хорошую историю.

Спасибо, что нашли время прочитать эту историю. Надеюсь, вы кое-что узнали, и это было полезно. Вы можете поделиться своими мыслями и мнениями в разделе ответов, и вы можете связаться со мной напрямую в Twitter или LinkedIn. Удачного взлома!

Большое спасибо Анне Айику за вычитку и исправление многих ошибок, которые я допустила при написании этой статьи.