Data Lakehouse — новое модное словечко в современном мире аналитики данных.

Сегодня большинство предприятий полагаются на данные для принятия более взвешенных бизнес-решений, и эти данные поступают из разных источников и в разных формах, в разных размерах и с разной периодичностью. Компании выходят за рамки ограничений традиционной архитектуры хранилищ данных, чтобы обеспечить расширенную аналитику, науку о данных и машинное обучение для всех этих данных. Data Lakehouse — одна из таких архитектур, которая устраняет многие ограничения архитектуры традиционных хранилищ данных.

Теперь давайте посмотрим, как мы можем построить архитектуру Data Lakehouse, используя службы, которые предлагает Azure.

Бессерверные пулы SQL позволяют запрашивать различные источники данных (файлы озера данных, таблицы Spark и Cosmos DB) без извлечения, преобразования и загрузки данных в другое хранилище данных. Это устраняет необходимость в дополнительных хранилищах данных для хранения курируемых данных.

Поток данных

  1. Объедините все свои структурированные, неструктурированные и частично структурированные данные (журналы, файлы и носители) с помощью Synapse Pipelines в Azure Data Lake Storage.
  2. Используйте бессерверные пулы SQL для очистки и преобразования бесструктурных наборов данных и сохранения их в Data Lakehouse с помощью CETAS.
  3. Используйте конечную точку бессерверного пула SQL для подключения к Power BI и создания красивых визуальных элементов.
  4. Используйте масштабируемые методы машинного обучения/глубокого обучения, чтобы получить более глубокое понимание этих данных с помощью Python, Scala или .NET с возможностями записных книжек в пуле Apache Spark.

Компоненты

  • Azure Synapse Pipelines позволяет создавать, планировать и организовывать рабочие процессы ETL/ELT.
  • Azure Data Lake — это масштабируемое и экономичное хранилище для любого типа неструктурированных, частично структурированных и структурированных данных.
  • Бессерверные пулы Azure Synapse SQL – это вычислительная среда с автоматическим масштабированием, использующая T-SQL для прямых запросов к озеру данных (нет необходимости копировать или загружать данные в специализированное хранилище). Бессерверный пул SQL является бессерверным, поэтому нет необходимости настраивать инфраструктуру или поддерживать кластеры. Конечная точка по умолчанию для этой службы предоставляется в каждой рабочей области Azure Synapse, поэтому вы можете начать запрашивать данные, как только рабочая область будет создана.
  • Azure Data Lakehouse Логическое хранилище данных, построенное поверх хранилища Azure Data Lake с использованием бессерверных пулов SQL. Это позволяет просматривать данные из разрозненных систем без перемещения или преобразования.
  • Power BI – это набор инструментов бизнес-аналитики, которые позволяют получать ценную информацию в вашей организации. Подключайтесь к сотням источников данных, упрощайте подготовку данных и проводите незапланированный анализ. Создавайте красивые отчеты, а затем публикуйте их для своей организации для использования в Интернете и на мобильных устройствах.
  • Azure Machine Learning – это облачная служба для создания решений для машинного обучения и управления ими. Он разработан, чтобы помочь специалистам по обработке и анализу данных и инженерам по машинному обучению использовать имеющиеся у них навыки и фреймворки в области обработки данных и разработки моделей.

Вот и все! ! Надеюсь, вам понравилась статья. Увидимся в моей следующей статье (как создать Data Lakehouse с помощью бессерверных пулов SQL), а пока будьте здоровы и радуйтесь обучению.