Чтение документации Cloudera с использованием Impala для объединения таблицы Hive с меньшими таблицами HBase, как указано ниже, затем в отсутствие устройства больших данных, такого как OBDA, и большой таблицы измерений HBase, которая является изменяемой:
Если у вас есть запросы на соединение, которые выполняют операции агрегирования с большими таблицами фактов и объединяют результаты с небольшими таблицами измерений, рассмотрите возможность использования Impala для таблиц фактов и HBase для таблиц измерений. (Поскольку в этом случае Impala выполняет полное сканирование таблицы HBase, а не выполняет поиск по одной строке HBase на основе столбца соединения, используйте этот метод только в тех случаях, когда таблица HBase достаточно мала, чтобы выполнение полного сканирования таблицы не приводило к узкое место производительности для запроса.)
Есть ли способ получить этот единственный ключ другим способом?
Вдобавок я отметил следующее о KUDU и HDFS, предположительно HIVE. У кого-нибудь есть здесь опыт? Очень хочу знать. Я буду пробовать это сам в свое время, но установить посылки на нераспакованные быстрые запуски не так-то просто ...
Комбинируйте и подбирайте менеджеры хранилища в одном приложении (или запросе)
• SELECT COUNT(*) FROM my_fact_table_on_hdfs JOIN
my_dim_table_in_kudu ON ...