Недавно я наткнулся на Apache Kylin, и мне стало любопытно, каковы варианты его использования. Насколько я могу судить, это инструмент, предназначенный для решения очень специфических проблем, связанных с более чем 10 миллиардами строк, агрегированием, кэшированием и запросом данных из других источников (HBase, Hadoop, Hive). Я прав в этом предположении?
Что такое варианты использования Apache Kylin?
Ответы (1)
Вариант использования Apache Kylin — это интерактивный анализ больших данных в Hadoop. Он позволяет запрашивать большие таблицы Hive с задержкой менее секунды за 3 простых шага.
- Определите набор таблиц Hive в звездообразной схеме.
- Создайте куб из таблиц Hive в автономном пакетном процессе.
- Запрашивайте таблицы Hive с помощью SQL и получайте результаты за доли секунды через Rest API, ODBC или JDBC.
Вариант использования довольно общий: он может быстро запрашивать любые таблицы Hive, если вы можете определить звездообразную схему и модельные кубы из таблиц. Ознакомьтесь с терминологией Kylin, если вы не уверены, что такое схема "звезда" и что такое "куб". .
Kylin предоставляет интерфейс ANSI SQL, поэтому вы можете запрашивать таблицы Hive почти так же, как раньше. Однако одно ограничение заключается в том, что Kylin предоставляет только агрегированные результаты, или, другими словами, SQL должен содержать предложение «группировать по», чтобы получить правильный результат. Обычно это нормально, потому что анализ больших данных больше фокусируется на агрегированных результатах, чем на отдельных записях.