Что такое варианты использования Apache Kylin?

Недавно я наткнулся на Apache Kylin, и мне стало любопытно, каковы варианты его использования. Насколько я могу судить, это инструмент, предназначенный для решения очень специфических проблем, связанных с более чем 10 миллиардами строк, агрегированием, кэшированием и запросом данных из других источников (HBase, Hadoop, Hive). Я прав в этом предположении?


person unseen_damage    schedule 07.03.2016    source источник
comment
Посмотрите: ebaytechblog. ком/2014/10/20/   -  person Ravindra babu    schedule 07.03.2016
comment
На самом деле это не дает общих вариантов использования, а скорее объясняет, как Ebay использовал его (поскольку ebay изначально разработал этот инструмент) и архитектуру продукта.   -  person unseen_damage    schedule 07.03.2016


Ответы (1)


Вариант использования Apache Kylin — это интерактивный анализ больших данных в Hadoop. Он позволяет запрашивать большие таблицы Hive с задержкой менее секунды за 3 простых шага.

  1. Определите набор таблиц Hive в звездообразной схеме.
  2. Создайте куб из таблиц Hive в автономном пакетном процессе.
  3. Запрашивайте таблицы Hive с помощью SQL и получайте результаты за доли секунды через Rest API, ODBC или JDBC.

Вариант использования довольно общий: он может быстро запрашивать любые таблицы Hive, если вы можете определить звездообразную схему и модельные кубы из таблиц. Ознакомьтесь с терминологией Kylin, если вы не уверены, что такое схема "звезда" и что такое "куб". .

Kylin предоставляет интерфейс ANSI SQL, поэтому вы можете запрашивать таблицы Hive почти так же, как раньше. Однако одно ограничение заключается в том, что Kylin предоставляет только агрегированные результаты, или, другими словами, SQL должен содержать предложение «группировать по», чтобы получить правильный результат. Обычно это нормально, потому что анализ больших данных больше фокусируется на агрегированных результатах, чем на отдельных записях.

person Li Yang    schedule 13.03.2016
comment
Будет ли допустимым следующий вариант использования? a) Разработать звездообразную схему с использованием HiveQL. b) Загрузить данные в Hadoop с помощью коннектора Hive. c) Kylin обработает сопоставление схемы Hive со схемой куба и выполнение Map/Reduce через HiveQL. d) Вывод результатов запроса в HBase. e ) Используйте Kylin для выполнения операторов SQL через Calcite в HBase и возврата результатов в виде JSON. - person unseen_damage; 16.03.2016
comment
Очень близко! Просто обратите внимание, что шаг c) выполняется вручную, сопоставление схемы Hive со схемой куба выполняется вручную, Kylin предоставляет вам графический интерфейс для этого. Также шаг d) выходные данные не относятся к какому-либо запросу, а представляют собой общий индекс данных Hive, который мы называем индексным кубом. - person Li Yang; 19.03.2016
comment
@LiYang, значит, Kylin часто используется аналитиком данных для интерактивного запроса данных? Можем ли мы интегрировать запрос Kylin в веб-приложение? (например, использование kylin для предоставления API данных на сервер отчетов?) - person mingchau; 02.04.2019
comment
Да, Kylin также может обслуживать веб-приложения через JDBC/ODBC/Rest API. - person Li Yang; 05.04.2019