Наука о данных, Визуализация данных

Как изменилась важность визуализации данных от средневековья к современности?

В визуализации данных многие разработки и изменения были внесены с прошлого в настоящее время.

Эта статья предложит схему развития визуализации данных с древних времен до наших дней, выявляя и выделяя несколько важных событий на этом пути.

Иногда данные не имеют смысла, пока мы не сможем посмотреть на них в графической или визуальной форме. Вы можете быстро визуализировать свой набор данных для себя. Это важный навык как для специалистов по данным, так и для статистиков.

Что мы подразумеваем под «визуализацией» данных?

Визуализация данных - это графическое представление информации и данных. Он использует графические элементы, такие как графики, диаграммы и карты. Он предлагает интерактивный способ просмотра и интерпретации тенденций и закономерностей данных.

«Обнаружение искусственной памяти, которая лучше всего поддерживает наши естественные способы восприятия» - Жак Бертин, 1967

«Использование абстрактных, нерепрезентативных картинок для отображения чисел» - Эдвард Тафти, 1983 г.

«Категориальная и количественная информация, закодированная главным образом через положение, форму, размер, символ и цвет» - Кливленд и МакГилл, 1985

Исторический контекст проектирования визуализации данных

Визуализация данных используется с конца 17 века. Когда Рене Декарт разработал двумерную систему координат для отображения значений. Визуализация еще больше усилилась, когда Уильям Плейфер изобрел линейные, полевые, круговые и круговые диаграммы.

Поскольку «данные» - это такая общая идея, а процесс «визуализации» может принимать несколько форм. Комбинированный термин «визуализация данных» избегает единственного значения.

Зачем визуализировать данные?

Мы, люди, воспринимаем информацию через визуализацию. С точки зрения непрофессионала, визуализация данных - это графическое представление собранных данных. Это позволяет лицам, принимающим решения, больше работать с визуализированными и предоставленными доказательствами.

Он показывает взаимосвязь между данными и изображениями. Визуализация данных важна, потому что она упрощает отслеживание тенденций и закономерностей. Поскольку генерируется огромное количество данных, нам необходимо интерпретировать тенденции данных.

Машинное обучение играет решающую роль в проведении прогнозного моделирования, которое помогает визуализировать данные.

Визуализация данных важна не для специалистов по данным, аналитиков данных и бизнес-аналитиков. Но также и для того, чтобы визуализация данных была понятна в любой карьере.

Если мы работаем с рекламой, маркетингом, разработкой, архитектурой, нужно интерпретировать результаты. Эта реальность иллюстрирует важность визуализации данных.

Визуализация данных имеет множество применений. В то же время, потребности и цели бизнеса позволяют визуализировать данные во многих отношениях для улучшения понимания данных.

Приближаемся к данным

Исследование, проведенное в 2013 году по физическому отклику на эмоциональные показатели, было сосредоточено на 700 участниках. Участникам были даны два очертания тела и предложено идентифицировать части своего тела.

Они полагали, что количество операций увеличивалось или уменьшалось на основании чувства, на котором они были сосредоточены.

Подведение итогов в виде тепловой карты пространственной плотности. Мы видим, как пространственные данные показывают простую историю о каждой эмоции.

Понять влияние

В августе 1854 года эпидемия холеры в Сохо, Лондон, была одной из многих таких вспышек в этом районе. В то время это усугублялось ростом населения, связанным с неадекватной санитарией и канализацией - более 1 из 10 человек, страдающих холерой.

Доктор Джон Сноу в сотрудничестве с другими исследовал людей, страдающих холерой, чтобы попытаться найти причину холеры.

Примерно в то время вспышка холеры не была известна как «микробное явление», и Пастер, возможно, не идентифицировал ее до 1861 года.

Его исследование описало насос с Брод-стрит как возможную причину, и он выступал за замену ручки насоса, чтобы остановить эпидемию.

Некоторые считают, что это начало эпидемиологических исследований. Точечная диаграмма, измененная здесь, представляет собой прямую визуализацию данных и их применимость к Broad Street Pump.

Обнаруживает закономерности

Поисковые запросы для «Статистик» и «Специалист по данным» показывают, как популярность «Специалистов по данным» с огромным отрывом обогнала «Статистиков». У них разные работы, но у них есть поразительное сходство.

Если вы были статистиком, ищущим новую работу, было бы неплохо подумать о «Data Scientist» как о потенциальной карьере.

Разрешить решения

В январе 1986 года при температуре -1 ° C (31 ° F), что было еще холоднее, чем когда-либо прежде, орбитальный корабль шаттла НАСА "Челленджер" взлетел. И вскоре после этого разбился, погибли все семь членов экипажа.

Итоги расследования самой страшной катастрофы в истории НАСА на сегодняшний день. Определено резиновое «уплотнительное кольцо», герметизирующее секции твердотопливных ракетных ускорителей. И предотвратил утечку дымовых газов.

Инженеры, которые работали в Morton Thiokol, фирме, которая разработала SRB. Утверждалось, что уплотнительные кольца не тестировались при таких низких температурах. На важной конференции было подготовлено два слайда.

В одном говорится, что SRBS не проверяла температуру ниже 53 ° F. А в другом - список ситуаций, в которых происходили отказы уплотнительных колец. Такие точки данных выделены синим прямоугольником.

Многие утверждали, например, Эдвард Тафт, что существует гораздо лучшая возможность убедить менеджеров НАСА. Чтобы отложить миссию, планируя точки данных.

Однако на самом деле мы не можем этого утверждать. «Лихорадка» НАСА была результатом множества внешних и внутренних корпоративных проблем, с которыми пришлось начать работу.

Что может утверждать, так это то, что, визуализировав результаты, гораздо легче учесть возможную опасность запуска при низких температурах.

Вдохновлять действие

Флоренс Найтингейл родилась в 1820 году и была социальным реформатором, статистиком и пионером современного медсестринского дела.

Шокирована своим опытом смерти британских солдат от предотвратимых болезней в больницах во время Крымской войны между 1853 и 1856 годами. Она выступала за лучший уход.

Соловей «Роза» является примером ее опубликованного исследования, чтобы показать лицам, не являющимся статистиками, цифры, стоящие за смертью солдата.

Ее исследования вдохновили правительства на усиление служб военных госпиталей. В частности, за счет снижения смертности от предотвратимых болезней.

Контекстуализировать информацию

Эта визуализация отображает схему катастрофической российской кампании Наполеона Бонапарта между 1812 и 1813 годами. Рисунок Шарля Минара, опубликованный в 1869 году, был инженером-строителем и пионером в использовании графики в инженерии и статистике.

Эдвард Тафте классифицирует это как лучшую статистическую графику из когда-либо созданных. Но это неясно.

Это очень хорошо подходит для преобразования множества переменных в одно изображение. Это показывает размер армии, географическое положение, пройденный маршрут, то, как группы отделялись в некоторые дни. И это показывает очень холодную погоду ретрита.

Хорошая визуализация

Средство отслеживания пробелов - это динамическая пузырьковая диаграмма, визуализирующая страны с течением времени. Известен профессором Хансом Рослингом в увлекательной презентации TED в 2007 году.

Он есть на YouTube, если вы его раньше не видели. Это отображает кодировку многих переменных и необходимо для представления данных в понятной форме для большинства аудиторий.

Плохая визуализация

Этот рисунок указывает на неспособность визуально передать результаты. На самом деле, это сознательно мешает понять, что удивительно, но не положительно.

Графика слишком плотная, чтобы ее можно было понять без подробного изучения, а маркировка полос увеличивает неуклюжесть.

Он кодирует только одно значение, и у него не очень хорошо получается. Ось X изогнута, и весь набор данных не представлен в одном измерении, что позволяет избежать простого визуального сравнения.

Фокус на графике - черная полоса в центре, но ключевая информация находится на графике с обеих сторон. Как глаз может сканировать графику?

Уильям Плейфейр

Шотландский политический экономист 1759 года рождения. Он считался одним из величайших мыслителей визуализации данных.

За свою карьеру у Плейфэра было много должностей, но особенно выделялись работы в качестве дизайнера инженерных чертежей и в его более поздней работе в качестве экономиста.

Во время своего более позднего исследования в качестве экономиста Playfair пытался избежать табличных деталей, с которыми политики делились своей информацией.

Используя свое картографическое образование и свои познания в картографии, он написал «Экономический и политический атлас» в 1786 году. Ему приписывают навсегда изменить то, как мы смотрим на данные. Он формализовал столбик, линию и круговые диаграммы.

Жак Бертен

Жак Бертин, 1918 года рождения, был географом и картографом. Его работа Sémiologie Graphique известна как один из ключевых текстов по визуализации данных.

Исследования статистической графики с точки зрения определения приоритета форм кодирования информации «визуальных переменных» были впереди его дня.

Джон В. Тьюки

Он вырос в 1915 году и был легендарным американским статистиком. Он много сделал в области статистики, но нам интересен его подход к анализу и визуализации данных.

Он выступал за пример исследовательского подхода. Анализ данных, чтобы сделать вывод о подтверждающем подходе.

Например, данные, используемые для проверки гипотезы. В частности, он призвал использовать визуализацию для анализа данных. В 1977 году он опубликовал книгу по исследовательскому анализу данных в «Исследовательском анализе данных» и, поступив так, он изобрел прямоугольный паттерн.

Эдвард Тафте

Он вырос в 1942 году и преподает в Йельском университете. В 1975 году его пригласили преподавать статистику группе студентов-журналистов в Принстоне. Он считал, что имеющиеся статистические графики не обладают визуальным качеством.

Этот оригинальный курс стал серией лекций с Джоном У. Тьюки. И самоизданная книга «Визуальное отображение количественной информации» в 1982 году.

Многие могут поверить, что Туфте был «крестным отцом» визуализации данных. Определение data-ink имеет важное значение в процессе редизайна.

Отношение чернил к данным - это пропорция чернил, используемых для отображения реальных данных, по отношению к количеству чернил, используемых на всем дисплее.

Заключение

В последние три десятилетия использование графики стало более популярным. Во второй половине 20 века выдающиеся ученые начали развивать науку и искусство визуализации данных и поднимать их на более высокий уровень.

Визуализация информации может помочь понять слабость традиционной описательной статистики.

Учитывая нынешнее ускоренное распространение данных, подход к визуализации данных представляет собой эффективный и согласованный способ цифрового выражения количественного содержания, который позволяет пользователям получать доступ к огромным объемам информации более эффективно, чем быстро.

А теперь прислушайтесь к своим мыслям в Twitter, Linkedin и Github !!

Согласны или не согласны с идеями и примерами Саурав Сингла? Хотите рассказать нам свою историю?

Он открыт для конструктивной обратной связи - если у вас есть дополнительные идеи для этого анализа, прокомментируйте их ниже или свяжитесь с нами !!

Твитните @ SauravSingla_08, комментарий Saurav_Singla и звезду SauravSingla прямо сейчас!