Прежде чем приступить к рисованию архитектуры, вам необходимо иметь четкое представление о бизнес-требованиях и основных вариантах использования, которые она должна выполнять.
Цели:
1) Внедрение нового корпоративного хранилища данных.
2) Реализация озера данных
3) Включите расширенную аналитику больших данных.
4) Включите прием данных IoT и потоковую передачу.
5) Гарантия качества данных, масштабируемость и высокая доступность
Чтобы гарантировать масштабируемость и высокую доступность при ограниченных (по сравнению с локальными) затратах на эксплуатацию и обслуживание, мы решили использовать полное облачное решение PaaS (Microsoft Azure).
Источники данных и режим приема являются важными моментами, которые следует учитывать:
- Структурированные и неструктурированные данные
- Пакетный прием и прием в режиме реального времени
На рисунке ниже показана высокоуровневая архитектура. Давайте подробно рассмотрим каждую коробку и то, как компоненты Azure использовались для их заполнения.
По шагам:
- Это была моя самая первая картина архитектуры — структурированные данные, пакетная обработка и классические отчеты/панели мониторинга.
Он позволяет получать (ELT — Фабрика данных Azure) данные из локальных систем в Azure Data Lake, где вы можете иметь структурированные и неструктурированные данные. Я выбрал Azure SQL Datawarehouse для создания классической корпоративной DWH и Azure Analysis Services для создания киосков данных.
Одним словом, это могло бы работать, но… во время реализации у меня были некоторые сюрпризы, в основном из-за незрелости ADF v1 (Azure Data Factory).
В следующей главе я подробно опишу, почему я выбрал каждый из этих компонентов, и расширю архитектуру, чтобы обеспечить прием данных IoT, прием данных в реальном времени, расширенную аналитику (машинное обучение).