Почему бы мне не использовать Databricks в качестве витрины данных?

Я пытаюсь разобраться в Databricks.

Я нашел документацию, в которой пошагово импорт данных из S3 или Azure Datalake, а затем вывод в Azure Synapse Analytics или другое решение для хранилища данных.

После быстрой игры я понял, что вы можете просто сохранить таблицу в Databricks, получить к ней доступ с помощью SQL и даже загрузить ее в PowerBI в качестве источника.

Итак, мой вопрос: для небольшого Datamart (10 тусклых изображений, 5 фактов), почему я должен платить за дополнительное решение для базы данных, такое как Azure SQL, Synapse, RDS или другое, если я мог просто оставить данные в таблице в Databricks, а затем получить доступ к нему прямо из моего инструмента отчетности оттуда?

Заранее спасибо.

Энди


person Andy Sawyer    schedule 27.12.2020    source источник
comment
Если вы импортируете в Power BI, это, вероятно, нормально, поскольку данные кэшируются в Power BI. Если вы запускаете прямые отчеты о файлах в хранилище datalake, вы, вероятно, не получите такой же производительности, как реляционная база данных.   -  person Nick.McDermaid    schedule 06.01.2021


Ответы (1)


Да, это очень возможно. Просто чтобы вы знали, что SQL Azure и Synapse могут быть предложением Microsoft, но они предназначены для разных целей, Synapse поддерживает MPP и, следовательно, больше реализует большие данные. Кроме того, решающее значение имеет не только то, сколько измерений и таблиц фактов у вас есть, сколько данных у вас есть, какой тип агрегирования и т. Д. Становится решающим.

person HimanshuSinha-msft    schedule 06.01.2021