Во-первых, обратите внимание, что Druid принимает данные таймсерий, поэтому каждая строка ваших данных должна иметь временную метку. Если это возможно, читайте дальше.
Выведите свои данные в CSV или TSV. Это два формата, поддерживаемых для пакетной загрузки. Итак, ваши данные будут выглядеть примерно так:
2013-08-31T01:02:33Z,"someData","true","true","false","false",57,200,-143
2013-08-31T03:32:45Z,"moreData","false","true","true","false",459,129,330
...
Затем вы можете создать задачу индексации, в которой есть раздел пожарного шланга, в котором вы указываете местоположение файла, формата и столбцов:
"firehose" : {
"type" : "local",
"baseDir" : "my/directory/",
"filter" : "my.csv",
"parser" : {
"timestampSpec" : {
"column" : "timestamp"
},
"data" : {
"type" : "csv",
"columns" : ["timestamp","data1","data2","data3",...,"datan"],
"dimensions" : ["data1","data2","data3",...,"datan"]
}
}
}
Обратите внимание на особую обработку столбца отметок времени.
Теперь запустите службу индексирования (документы Druid содержат информацию о том, как запустить кластер, который вам понадобится) и передайте ему задачу, как описано в разделе Пакетная загрузка с помощью службы индексирования . Данные будут загружены и обработаны в сегменты Druid, которые вы можете запросить.
person
user766353
schedule
06.02.2014