Прежде чем приступить к рисованию архитектуры, вам необходимо иметь четкое представление о бизнес-требованиях и основных вариантах использования, которые она должна выполнять.

Цели:

1) Внедрение нового корпоративного хранилища данных.

2) Реализация озера данных

3) Включите расширенную аналитику больших данных.

4) Включите прием данных IoT и потоковую передачу.

5) Гарантия качества данных, масштабируемость и высокая доступность

Чтобы гарантировать масштабируемость и высокую доступность при ограниченных (по сравнению с локальными) затратах на эксплуатацию и обслуживание, мы решили использовать полное облачное решение PaaS (Microsoft Azure).

Источники данных и режим приема являются важными моментами, которые следует учитывать:

- Структурированные и неструктурированные данные

- Пакетный прием и прием в режиме реального времени

На рисунке ниже показана высокоуровневая архитектура. Давайте подробно рассмотрим каждую коробку и то, как компоненты Azure использовались для их заполнения.

По шагам:

  1. Это была моя самая первая картина архитектуры — структурированные данные, пакетная обработка и классические отчеты/панели мониторинга.

Он позволяет получать (ELT — Фабрика данных Azure) данные из локальных систем в Azure Data Lake, где вы можете иметь структурированные и неструктурированные данные. Я выбрал Azure SQL Datawarehouse для создания классической корпоративной DWH и Azure Analysis Services для создания киосков данных.

Одним словом, это могло бы работать, но… во время реализации у меня были некоторые сюрпризы, в основном из-за незрелости ADF v1 (Azure Data Factory).

В следующей главе я подробно опишу, почему я выбрал каждый из этих компонентов, и расширю архитектуру, чтобы обеспечить прием данных IoT, прием данных в реальном времени, расширенную аналитику (машинное обучение).