Британский кинорежиссер Альфред Хичкок однажды раскрыл один из главных ингредиентов своего подхода к созданию фильмов. В своем интервью 1962 года французскому режиссеру Франсуа Трюффо Хичкок сказал, что если зритель фильма видит тикающую бомбу замедленного действия под столом, а затем видит двух персонажей, ведущих обычный разговор за этим столом, то возникает напряжение. Зрители захотят предупредить персонажей на экране». [1] Хичкок представил свою отправную точку для истории — то, как он предоставил зрителям сеттинг, чтобы мотивировать их следить за историей.

Предположим, мы рассказываем историю данных — историю повседневных операций банка со всеми его финансовыми транзакциями. А теперь представьте, что вместо бомбы с часовым механизмом мы представляем список возможных мошеннических действий и афер, совершенных в отношении владельцев счетов хитрыми мошенниками, на фоне нормального объема транзакций. Презентация обязательно привлечет внимание менеджеров и сотрудников банка, которые отвечают за надлежащее функционирование операций этого банка, вероятно, так же, как бомба замедленного действия под столом привлекает внимание зрителей.

История — это связное повествование о событии или серии событий, созданное с целью вызвать интерес у определенной группы слушателей, читателей или зрителей. Помимо экспозиции сеттинга, хорошо рассказанная история нуждается в простой структуре с началом, серединой и концом. Греческий философ Аристотель писал в 350 г. до н.э., что хорошо написанная история должна иметь хорошо построенный сюжет. Хорошо продуманная история может заинтересовать аудиторию на эмоциональном и интеллектуальном уровне. Это может мотивировать людей захотеть узнать больше или предпринять определенные действия. То же самое верно и для истории данных. Он должен быть привлекательным, эффективным и ценным для заинтересованных сторон.

Истории могут принимать разные формы. Рассказ может быть художественным произведением или документальным фильмом. Художественный фильм использует актеров, актрис и драму, чтобы рассказать историю. Документальный фильм использует интервью и закадровый голос, чтобы рассказать историю.

История данных опирается на слайды, информационные панели, визуализацию, текст или интерактивные диаграммы, чтобы помочь заинтересованным сторонам в различных областях понять соответствующие идеи и выводы об операциях в компании или ситуации на данном рынке. Рассказывание историй о данных — это создание последовательного повествования, которое позволяет заинтересованным сторонам легко понять идеи.

Нам нужен высококачественный набор данных, чтобы подготовить четкую историю данных. Краеугольным камнем всей науки о данных и анализа является правильный набор данных, который должен быть создан в сотрудничестве с инженерами данных, теми, кто работает над тем, чтобы наш набор данных был готов к анализу, свободен от несогласованности данных и ошибок. После очистки и подготовки нашего набора данных мы можем решить, какие переменные включить в наш анализ, и выбрать правильный период времени, географический регион и другие соответствующие параметры. Затем мы можем визуализировать данные. Если мы используем платформу обработки данных, совместимую с Jupyter, мы можем использовать интерактивную визуализацию, чтобы позволить заинтересованным сторонам исследовать данные, находить новые идеи и критически взаимодействовать с историями данных, а не пассивно просматривать визуализации данных.

Для повествования данных могут потребоваться десятки итерационных вычислений. Некоторые итерации могут быть выполнены заинтересованными сторонами после того, как им будет представлена ​​история данных. Интерактивные визуализации позволяют нашим заинтересованным сторонам самостоятельно исследовать данные и делать выводы. При создании интерактивных графиков мы также можем выбирать из множества современных пакетов Python с открытым исходным кодом, например. Plotly, Bokeh, Altair, HoloViz и Plotnine.

Как мы подготавливаем наборы данных для анализа? Сначала нам нужно четко определить проблему, которую мы хотим решить. В приведенном выше примере нам нужен журнал транзакций в банке, и нам нужно извлечь примеры мошеннических транзакций — все соответствующие наборы данных от структурированных до полуструктурированных и неструктурированных, например. документы.

Но мы не должны быть перегружены потоком данных. Важно определить наборы данных, относящиеся к ключевым аспектам операции. И в наборах данных мы должны определить наиболее важные функции. Четкая история может быть разработана только после того, как мы определили ядро ​​истории. В сценарии науки о данных это означает функции, оказывающие наибольшее влияние на вывод.

Для четкой истории данных мы должны определить аудиторию. В банке менеджеры захотят узнать о последних мошеннических операциях и жульничестве. У нас также должна быть четкая цель. Каковы ключевые моменты того, что мы пытаемся сообщить? Это может быть постановка проблемы или решение. Определение нашего повествования и аудитории — это первый шаг в создании убедительной истории данных, которая будет информативной, увлекательной и действенной.

Как основные моменты понимания влияют на заинтересованные стороны или переходят в конкретные действия? В чем суть рассказа? Что отражают данные? Как лучше всего сообщить о проблеме, которую он раскрывает? Каковы возможные решения? Это ключевые вопросы для истории данных.

Ключевым компонентом сюжетной линии данных является визуализация данных. Есть несколько типов сюжетов, каждый из которых имеет свои сильные стороны. Гистограммы используются для сравнения значений различных категорий или групп, отображения распределения данных или сравнения различных групп или категорий. Линейные диаграммы используются для отображения тенденций с течением времени, исторических изменений данных или для сравнения тенденций между различными группами. Диаграммы рассеяния используются, чтобы показать взаимосвязь между двумя переменными, выявить корреляции или найти шаблоны данных. Блочные диаграммы используются для выявления выбросов и для сравнения распределения данных между различными группами или категориями.

Истории должны привлекать внимание и приносить ощутимые результаты. Нам нужно, чтобы история была краткой и по существу, сосредоточив внимание на наиболее важных выводах для нашей аудитории, например, на конкретных цифрах, подтверждающих утверждения, сделанные в повествовании. Если мы представляем данные о мошенничестве с транзакциями, мы предоставим рекомендации, как его предотвратить.

Нам необходимо предоставить контекст для среза данных, включая временные рамки, географию и соответствующую демографическую информацию. Лучше всего использовать ясный, лаконичный язык, избегающий технического жаргона, для объяснения сложных понятий простыми словами, с визуальными эффектами для выделения ключевых моментов и текстом для обеспечения контекста. Нам нужно использовать линейную диаграмму, чтобы показать тенденции с течением времени, и текст, чтобы объяснить, почему эти тенденции произошли. Наконец, мы должны включить практические идеи и рекомендации, основанные на анализе данных, чтобы помочь заинтересованным сторонам понять, какие действия следует предпринять на основе этих идей.

Подводя итог, можно сказать, что с помощью совместимой с Jupyter платформы обработки данных, такой как Google Vertex AI, DataBricks, AWS Sagemaker, Dataiku, Hex или JetBrains Datalore, рассказывание историй на основе данных может сочетать интерактивную визуализацию данных с методами для предоставления последовательной серии идей как части убедительный рассказ, чтобы поддержать совместное принятие решений. Данные, предоставленные как часть более крупной истории, могут оказать гораздо большее влияние, чем простой отчет.

Мы также можем думать об эффективном тематическом исследовании как о посмертной истории. Возникла проблема в работе банка. Было развернуто программное решение. Ряд проблем был решен. В этом повествовании есть три основных элемента:

Ситуация — Нам нужно сформулировать характер проблемы этого клиента. Этот первый раздел повествования должен представить компанию и проблемы, с которыми она столкнулась.

Воздействие. Как только проблема будет четко сформулирована, мы сможем понять, как эта компания хотела бороться с мошенничеством, она решила ее и какое ощутимое влияние это решение оказало на их прибыль.

Резолюция — важно обсудить изменения, внесенные компанией, и положительные результаты. Они также должны отражать проблемы, возникшие в ситуации, и то, как они были решены.

В эффективном тематическом исследовании клиента будут обсуждаться данные, которые покажут, как был решен ряд проблем, и продолжится обсуждение того, какие конкретные действия потребуется предпринять новому потенциальному клиенту, чтобы узнать больше о решении, чтобы они могли решать аналогичные проблемы.

[1] https://the.hitchcock.zone/wiki/Interview:_Alfred_Hitchcock_and_Fran%C3%A7ois_Truffaut_(Aug/1962)_-_transscriptions