POC: Cloudera Impala + HDFS + HBase на отдельном кластере

Я имею дело с архитектурой системы больших данных. Я знаю, что Impala может выполнять запросы к данным, хранящимся в кластере HDFS/HBase.

Но что, если у меня есть один кластер HDFS плюс еще один кластер, в котором я храню данные HBase. Сможет ли Impala выполнять запросы, объединяющие данные из обоих кластеров?


person cis    schedule 29.10.2014    source источник
comment
Под другим кластером вы подразумеваете наличие отдельного кластера с HBase и собственной HDFS?   -  person Matt    schedule 29.10.2014
comment
Нет, только кластер HBase.   -  person cis    schedule 30.10.2014


Ответы (2)


Сначала HBase хранит свои данные в HDFS. Поэтому я уверен, что у вас есть HDFS в вашем кластере HBase.

Когда impala читает/записывает данные в HDFS, она напрямую обращается к блокам на уровне ОС. Вот почему импала так быстр в этом. Когда impala читает данные HBase, она становится клиентом HBase, используя свой API, а не считывает данные HBase напрямую с диска, как это было бы в противном случае.

Таким образом, HBase не обязательно устанавливать в том же кластере, что и Impala. Однако кластеры должны иметь доступ друг к другу.

person Niko    schedule 05.11.2014

Я думаю, вам также нужно установить Impala на кластере Hbase. Объединение данных между двумя кластерами может быть плохой идеей, так как вы столкнетесь с проблемами задержки.

person Venkat Ankam    schedule 29.10.2014