Создайте единую таблицу Azure Analysis Services из множества больших двоичных объектов в Data Lake Store.

Я новичок в службах анализа и озере данных, работаю над POC. Я использовал фабрику данных для извлечения некоторых данных TSV из хранилища BLOB-объектов, которое логически организовано в виде небольших BLOB-объектов «разделов» (тысячи BLOB-объектов). У меня есть корневая папка, которую можно рассматривать как содержащую всю таблицу, содержащую подпапки, которые логически представляют разбиение, скажем, по клиенту — они содержат подпапки, которые логически представляют разбиение данных клиента, скажем, по дате. Я хочу смоделировать всю эту структуру папок/BLOB-объектов как одну таблицу в службах Analysis Services, но не могу понять, как это сделать. Я видел сообщения в блогах и примеры, которые создают одну таблицу AAS из одного файла ADLS, но информация о других макетах файлов данных кажется скудной. Является ли мой подход к этому неправильным, или я просто упускаю что-то очевидное?


person Brandon    schedule 08.04.2018    source источник


Ответы (1)


Это сообщение в блоге содержит инструкции по добавлению нескольких больших двоичных объектов в одну таблицу.

Затем запись в блоге части 3описывает создание некоторых разделов служб Analysis Services для повышения производительности обработки.

Наконец, это сообщение в блоге описывает подключение к Azure Data Lake Store (в отличие от хранилища BLOB-объектов Azure в предыдущих сообщениях).

Я бы использовал эти подходы для создания, скажем, 20-200 разделов (не тысяч) в Azure Analysis Services. Разделы обычно должны содержать не менее 8 миллионов строк, чтобы обеспечить оптимальное сжатие и производительность. Я предполагаю, что для достижения такого размера потребуется добавить несколько больших двоичных объектов вместе.

person GregGalloway    schedule 10.04.2018
comment
Я снова просматриваю эти сообщения в блоге и думаю, что мне не хватает того, как объединить файлы, когда они не все вместе в одной папке. Структура, из которой я импортирую, имеет вид ‹table›/customer/week/date/*.csv (тысячи CSV-файлов на папку с датой), и я хочу, чтобы все клиенты были в одной таблице (вероятно, тогда они были бы разделены по неделям). Синтаксис M все еще немного неуловим для меня, и мои попытки поиска синтаксиса просто приводят к скриншотам Excel, которые на самом деле не дают мне представления о том, как работает язык M. Я все еще копаю, но мог бы подтолкнуть в правильном направлении. - person Brandon; 19.04.2018
comment
@Brandon Я бы предложил использовать пользовательский интерфейс для добавления таблиц, чтобы изучить синтаксис. Синтаксис, который вы ищете, будет #"Appended Query" = Table.Combine({Step1, Step2}), так как это позволит вам объединить две таблицы или шаги вместе. - person GregGalloway; 19.04.2018
comment
Я проверю это... после публикации моего последнего ответа я наткнулся на это, которое, я думаю, поможет мне: stackoverflow.com/questions/46982551/ - person Brandon; 19.04.2018