За последние несколько лет данные стали важным активом в бизнесе, поскольку многие организации собирают огромное количество данных из различных источников, которые они открыли для взаимодействия с клиентами. Теперь, когда все эти данные собраны в той или иной форме, каждая организация стремится извлечь из них пользу и доход
Мы обсудим несколько артефактов и проектов, которые могут помочь в создании масштабируемых и эффективных конвейеров данных. и системы аналитики.

В качестве бизнес-кейса давайте возьмем пример страховой компании, которая собирает различные типы данных из различных источников, таких как

  1. Подробная информация о пользователе при регистрации.
  2. Детали претензии, когда она была подана.
  3. Информация из социальных сетей, аналитика и правительственные данные.
  4. Демография, откуда был подан иск, и причина иска.
  5. Информация о текущем состоянии пользователя, против которого подана претензия.
  6. Медицинская история, категория дохода, финансовый отчет, кредитный рейтинг, привычки в поездках и пищевые привычки пользователя, против которого был подан иск (они будут исходить от различных типов пользователей, страховых пользователей, таких как ипотека, автомобиль, путешествия, здоровье, жизнь имущество , отгрузка и др.).
  7. Взаимодействие агента с клиентом.
  8. Взаимодействие с клиентом и колл-центром/центром поддержки.

Собирая эту информацию, страховая компания может использовать данные для получения стоимости для некоторых из следующих целей

  1. Обнаружение мошенничества и снижение рисков.
  2. Таргетированная реклама и маркетинг новых предложений.
  3. Рекомендации по продукту на основе активности пользователя, привычек, категории дохода и истории болезни.
  4. Классификация клиентов на основе поведения, привычек, финансовых активов, истории болезни или личной информации.
  5. Андеррайтинг и корректировка цен или оптимизация для полиса определенной группы политик или пользователей.
  6. Выявление новых рынков и их конкретных потребностей в страховании.
  7. Оптимизация колл-центра и поддержки клиентов.

Прежде чем перейти к высокоуровневому проектированию, давайте разберемся, что такое проектирование данных, конвейер данных, наука о данных и машинное обучение и какое место они занимают во всей системе.

  1. Наука о данных. У вас есть огромное хранилище данных, в котором вы собрали данные из разных источников в разных форматах. Данные могут быть беспорядочными, неправильными и в некоторой степени не связанными. Наука о данных — это понимание этих данных и создание значимых моделей данных, которые вы анализируете и извлекаете из них некоторую ценность, а также создаете меньшие значимые подмножества. Существуют различные инструменты BI и DS для понимания и визуализации этих данных.
  2. Машинное обучение и искусственный интеллект. Чтобы постоянно учиться и улучшать результат запроса с лучшей корреляцией и прогнозированием, используется машинное обучение. Мы продолжаем улучшать и внедрять модели машинного обучения в конвейеры, чтобы получать более точные результаты. С помощью ИИ мы улучшаем эти модели машинного обучения. Все общедоступные облачные платформы имеют собственный набор инструментов и сервисов, отнесенных к категории платформы MLaaS (машинное обучение как услуга) с различными поддерживаемыми платформами машинного обучения, такими как TensorFlow, PyTorch, Cognitive Service, scikit-learn, keras и т. д.
  3. Инженерия данных. Чтобы упомянутые выше шаблоны машинного обучения и инструменты бизнес-аналитики могли использовать эти данные, некоторый набор компонентов должен собирать данные из разных источников и передавать их в озеро данных, а также от озера данных до различных систем преобразования и сокращения карт. Это мы называем инженерией данных.
  4. Конвейеры данных.Инжиниринг данных достигается путем создания конвейеров данных с различными этапами и источниками ввода/вывода в зависимости от требований.
    Существуют разные этапы конвейера данных и разные механизмы, как эти этапы были разработаны. Выбор компонентов становится очень важным при проектировании конвейеров, поэтому конвейер должен быть масштабируемым и эффективным, а также максимально экономичным. Мы придерживаемся облачного подхода и используем управляемые службы Azure, чтобы сделать наши конвейеры масштабируемыми, а также избежать ненужных накладных расходов на обслуживание. Хотя это может быть не так для всех случаев, поскольку стоимость также является одним из важных факторов, и она может увеличиваться в зависимости от размера данных, которые мы храним, и типа/частоты запросов, которые мы инициируем в системе.

Конвейер данных

Конвейер данных, как мы уже обсуждали, представляет собой комбинацию различных этапов для перемещения данных из нескольких источников к месту назначения, где один из последних этапов BI может применяться для визуализации и . Могут быть подготовлены разные маршруты с пропуском этапов в зависимости от характера и использования данных.

Давайте разберемся, что происходит на каждом этапе

  1. Сбор и получение. Данные поступают в озеро данных или промежуточную базу данных через различные устройства и источники, такие как смартфон (приложение), Интернет (интернет-сайт), события (IoT или интегрированные службы в EDA), шлюз API. (для третьих лиц), журналы приложений и загрузка пакетного файла. Прием данных можно настроить либо на обработку в режиме реального времени (события, запросы API и журналы), либо на пакетную обработку (загрузка файлов).
  2. Озеро данных и промежуточное хранилище. Данные, полученные на этапе 1, будут либо храниться в разных базах данных в другом формате и могут быть переданы в конвейер, либо могут быть объединены в единое озеро данных, такое как ADLS, а затем отправлены на карту. Конвейер -R через Фабрику данных Azure.
    Кроме того, некоторые данные можно передавать для вычислений, а некоторые можно напрямую использовать для аналитики на этапе 3 в зависимости от характера данных и бизнес-требований (например, событий).
  3. Этап вычисления, обогащения и преобразования.Записная книжка Databricks на основе Apache Spark используется для очистки, преобразования и анализа потоковых данных, а также их объединения со структурированными данными из операционных баз данных или хранилищ данных. Данные могут перемещаться туда и обратно между различными сервисами map-R и Analytics для получения более глубокого понимания этих данных.
  4. Хранилище данных. Обогащенные и преобразованные данные будут храниться либо в базе данных SQL (clickhouse), либо в базе данных Cosmos (в формате документа, графика или столбца) для выполнения запросов бизнес-аналитики и предоставления более быстрых результатов. Для достижения высокой пропускной способности здесь важно выбрать правильную базу данных в соответствии с вашими потребностями, учитывая различные факторы, такие как объем данных, которые будут возвращены через запрос, какой тип отношений содержит данные, ожидаемый TPS и многое другое.
  5. Потребление или визуализация. Как только данные находятся в хранилище, вы можете использовать их для получения информации и прогнозирования с использованием моделей машинного обучения, создания аналитических панелей мониторинга, таких как Power BI или Tableau, и использования Azure Analysis Services для обслуживания этого. данные тысячам пользователей. Пользователи могут создавать отчеты самообслуживания на основе моделей машинного обучения, которые были загружены в озеро данных, чтобы получать более настраиваемые отчеты.

Интересно, что, как и платформа искусственного интеллекта Google, Azure также предоставляет единую платформу (Azure Synapse), в которой все компоненты (конвейер, озеро данных, аналитика, пул SQL, задания Spark map-R и т. д.) интегрированы и может использоваться для создания полной системы от приема до компьюсмента с высокой пропускной способностью, эффективностью и масштабируемостью. Это также рекомендуемая платформа для аналитики в Azure. Кроме того, вы можете использовать ссылку Azure Synapse для репликации данных в аналитику Synapse из хранилища транзакционных и нетранзакционных данных либо в облаке, либо в prim. Конечно, стоимость — это один из основных факторов, на который следует обратить внимание, прежде чем переходить на Azure Synapse. Хотя его можно использовать как «бессерверную» модель по запросу (что позволяет увеличивать или уменьшать масштаб и платить только за то, что вам нужно, когда вам это нужно), или он может работать на предварительно выделенных ресурсах сервера — в зависимости от того, что лучше для ваш бюджет и вариант использования.

Теперь, когда мы поняли, что такое конвейер, каковы его различные этапы и каково значение и компоненты, участвующие в каждом этапе, давайте посмотрим на высокоуровневый дизайн того, как данные передаются от одного компонента к другому и как эти компоненты интегрированы. друг с другом.