Предприятия во всех сферах деятельности разрабатывают платформы данных, чтобы обеспечить аналитику и аналитику на основе машинного обучения. Задача большинства групп инженеров данных - разработать платформу данных мирового класса. Но что означает мировой класс? Как мы это измеряем? Мы выполнили это упражнение и разработали систему показателей для отслеживания эволюции нашей платформы данных. Мы считаем, что истинным Севером для платформы мирового класса становится самообслуживание с возможностью поддержки любых данных, любой аналитики, любого пользователя. В этом сообщении блога подробно описывается разработанная нами система показателей.

Давайте начнем с типичной карты пути аналитика данных, работающего над разработкой новой бизнес-метрики для корреляции использования продукта и количества продлений подписки. Карта путешествия состоит из нескольких этапов:

  • Обнаружение: понимание доступных атрибутов данных и составление короткого списка для экспериментов.
  • Прием: некоторые атрибуты могут быть уже доступны, а другие необходимо загрузить.
  • Управление. В рамках процесса приема к данным необходимо применить соответствующее соответствие и преобразование. Этап обычно включает в себя очистку, ETL, шифрование, соответствие (GDPR, SOX и т. Д.) Атрибутов и измерений данных.
  • Анализ: создание прототипа для генерации показателей и повторения.
  • Опубликовать: доступ к аналитике. Результатом может быть панель управления, модель машинного обучения, пакетный отчет, набор пар KV и т. Д.

На каждом из этих этапов необходимо отслеживать несколько показателей системы показателей. Одна важная метрика (OMTM): Время получения достоверной информации. Метрика представляет собой суммирование всех этапов и отражает продуктивность пользователей данных на карте пути для преобразования исходных данных. данные в полезные идеи. Это также означает гибкость предоставления клиентам функций, связанных с данными, в рамках предлагаемого продукта. Наличие большого времени получения надежной аналитической информации означает, что организациям требуется значительно больше времени, чтобы получить аналитическую информацию из своих данных. Поскольку организация конкурирует за понимание данных, это может иметь значение между успехом и неудачей. Представьте, что запускается новая функция продукта, и команде нужно определить рост доходов. Если на получение понимания из доступных необработанных данных уйдут недели, это повлияет на маркетинговые и маркетинговые усилия по запуску.

Время до получения достоверных сведений прямо пропорционально степени самообслуживания платформы и является суммой ключевых показателей эффективности на каждой из отдельных фаз карты пути.

Ключевые показатели эффективности этапа обнаружения:

Время поиска. Представляет задержку во времени в процессе обнаружения с целью получения новых идей. Типичное корпоративное приложение будет иметь сотни источников данных, связанных с данными клиентов SaaS, поведенческими данными и сторонними данными. По мере запуска функций SaaS постоянно внедряются новые источники, параметры данных и показатели. Время нахождения можно разделить на:

  • Время нахождения источников: когда доступен новый источник данных, как быстро он обнаруживается и отслеживается для приема в озеро данных.
  • Время нахождения атрибутов: поиск доступных измерений атрибутов в таблицах и логика, используемая для их создания.
  • Время нахождения KPI: стандартизованные KPI, написанные отдельными аналитиками и специалистами по данным, которые формируют деловой словарь для более широких пользователей данных.

Время интерпретации: показывает, насколько легко понять атрибуты данных и ключевые показатели эффективности. Без правильного понимания модели данных (таблиц базы данных или схемы сообщений), а также словаря данных (значения атрибутов измерения) невозможно построить эффективную аналитику. Кроме того, если есть стандартизированные уровни данных, построенные на атрибутах источников, понимание логики, используемой для преобразования.

Ключевые показатели эффективности этапа передачи:

Время до анализа: показывает, насколько быстро данные из источника становятся доступными для аналитики и машинного обучения. В зависимости от модели приема, это может быть так же просто, как сделать сообщения доступными (данные как события) или подключить источник данных для отправки данных в озеро, или другие шаблоны, чтобы сделать данные доступными для аналитика.

Время развития: в источниках данных постоянно происходят изменения. Метрика показывает, насколько быстро платформа данных может приспособиться к этим изменениям. Например, когда происходит изменение схемы, в идеале прием должен корректироваться автоматически. А также изменения в конфигурации базы данных, значения атрибутов таблицы и т. Д.

Ключевые показатели эффективности этапа управления:

Время до соответствия: обеспечение обработки данных в соответствии с нормативными требованиями. Это включает шифрование данных, контроль доступа, происхождение копий данных. Включает в себя два ключевых элемента: a) процессы для выполнения требований соответствия таким нормативным актам, как GDPR; б) Обработка PII (личной информации) надлежащим образом.

Время до получения качества: показывает время, необходимое для обеспечения правильности и качества данных для последующей аналитики. В идеале конвейеры данных должны иметь возможность профилировать атрибуты данных по мере их прохождения по конвейеру. например, дисперсия данных, ссылочная целостность и т. д.

Время трансформации: время спорить и корректировать. Традиционно это представляет собой процесс ETL или ELT, чтобы сделать данные потребляемыми для последующих вариантов использования.

Время до стандартизации: представляет время, необходимое для создания стандартизированных ключевых показателей эффективности или бизнес-словаря показателей, стандартизированных для пользователей данных. Типичный процесс включает прототипы, которые первоначально реализуются аналитиками и специалистами по данным. Обычно существует несколько прототипов одной и той же метрики. Стандартизация укрепляет атрибуты и логику, задействованные в создании этих показателей.

Анализировать:

Время итерации: показывает гибкость при изменении существующих конвейеров данных, а также при создании новых. Это представляет собой способность понимать существующую логику конвейера, отслеживать происхождение, вносить изменения в скрипт, проверять изменения в песочнице и запускать в производство.

Время до запроса. Представляет производительность базовых механизмов запросов. С разделенными архитектурами хранения и запросов, сопоставление типа запроса с соответствующими базовыми технологиями, такими как Hive, Spark, Presto, in-memory и т. Д.

Время до оптимизации. Представляет работу, необходимую для оптимизации конвейеров и запросов с учетом требований. стоимость и планирование. В масштабе, включающем тысячи рабочих мест и миллионы долларов на эксплуатацию платформы данных, оптимизация становится все более важной.

Опубликовать

Время до начала производства. Предоставляет возможность запускать конвейеры данных с повторяемостью и в нужном масштабе. Далее можно разделить на:

  • Время публикации: предполагает наличие надлежащего мониторинга, предоставление результатов через информационные панели или API-интерфейсы и проверку проверок безопасности.
  • Время на повторную тренировку: проверка правильности отчетов и моделей машинного обучения относительно изменение свойств данных
  • Время до последней мили: интеграция со средами выполнения, такими как структура для кампании электронного маркетинга.

Время для решения проблем. Представляет время, необходимое для обнаружения и устранения проблем. Внедрение интеллекта в структуры мониторинга (например, обнаружение аномалий), а также возможности самовосстановления для упреждающего исправления проблем.

До появления оценочной карты команды расходились в улучшении всех ключевых показателей эффективности и ни на одном из них не продвигались. Система показателей сконцентрирована на выборе 1-2 показателей каждый квартал и удвоении усилий при перемещении стрелки по этим показателям. Кроме того, мы отслеживаем метрику Time-to-Reliable-Insights для когорт пользователей, типов данных и типа аналитики. Например, когорта пользователей Data Scientist, выполняющих аналитику в реальном времени сторонних данных, отличается для инженеров по продуктам, использующих пакетную обработку данных об использовании продуктов SaaS. В заключение, мы определяем платформу данных мирового класса как платформу, которая сводит к минимуму время получения надежной информации для любых данных, любой аналитики и любого пользователя.