Подходы к аналитике таблиц Cassandra?

У меня есть требование выполнить фильтрацию и сортировку в реальном времени по относительно большому разделу в таблице C * ~ 2-3 миллиарда строк с более чем сотней столбцов в каждой. Должна быть возможность фильтровать и сортировать любую комбинацию столбцов. Мы попробовали Apache Solr (DataStax Enterprise 4.8) для такой работы, но столкнулись со следующими проблемами:

Solr-индексы плохо работают при частых и массовых обновлениях данных
Иногда Solr просто не перестраивает индексы (ждал часами)
Solr может читать только с CL=ONE, поэтому данные могут быть несогласованными

Так что теперь мы ищем другие подходы. Сейчас мы пробуем Apache Spark 1.4. Но похоже, что производительность сортировки неудовлетворительна - около 1,5 мин на 2 млрд строк (наша цель ~ 1-2 сек). Возможно, мы делаем что-то не так, так как находимся в самом начале обучения Spark. Также я понимаю, что производительность может быть лучше с большим количеством процессорных ядер и памяти.

Сегодня я прочитал об Apache Inginte с индексацией в памяти. Возможно, это лучший инструмент для нашего случая?

Так что теперь я просто ищу предложение инструмента для выполнения такой работы.

Спасибо.

PS: DataStax Enterprise 4.8, Apache Cassandra 2.1.9.791, Apache Solr 4.10.3.1.172, Apache Spark 1.4.1.1.

sedovav 24.05.2016 источник

Ответы (3)

arrow_upward
1
arrow_downward

Я думаю, что ваши подходы являются лучшими, которые вы можете получить. Либо Spark (например, SparkSQL), либо сетка данных в памяти, такая как Ignite. Оба будут делать одно и то же - помещать все в память, перемешивать и нарезать данные. http://velvia.github.io/Subsecond-Joins-in-Spark-Cassandra/ Flink — еще один вариант для рассмотрения, но он ничем не отличается от Spark.

С другой стороны, 2-3 миллиарда строк должны соответствовать БД Postgres или чему-то подобному. Проверьте, не достаточно ли вам.

В мире Hadoop у вас есть Hive (медленный и стабильный), Impala (быстрый и требовательный к памяти) или снова Spark. Но с Кассандрой это не сработает. И я не верю, что ваши данные достаточно велики, чтобы учитывать среду Hadoop (стоимость обслуживания).

Piotr Gwiazda 19.06.2018

arrow_upward
0
arrow_downward

Извините, но сортировка по 2 миллиардам строк с более чем сотней столбцов за 2 секунды. Думаю, это будет большой вызов. Я имею в виду, что у вас есть 200 миллиардов столбцов. Рекомендуется не более 2 миллиардов на ключ раздела. И я думаю, что 2 миллиарда на раздел слишком много. Если вам нужна лучшая производительность искры, вы должны найти узкое место. Можешь написать немного больше о своей установке? Сколько у вас узлов cassandra? Сколько узлов Spark? Характеристики оборудования?

Citrullin 24.05.2016

comment

На данный момент мы тестируем его в среде песочницы ~ DC1 с 4 узлами Cassandra и DC2 с 2 узлами Spark. Каждый узел имеет 16 Гб памяти и 8 процессоров по 2500 МГц. - sedovav; 24.05.2016

arrow_upward
0
arrow_downward

Apache Ignite имеет полную поддержку SQL с индексами, которые вы можете использовать для повышения производительности в вашем случае. Я бы обязательно попробовал.

Подробнее см. на этой странице: https://apacheignite.readme.io/docs/sql-queries< /а>

Valentin Kulichenko 25.05.2016

Вопросы по теме

Как правильно переопределить недоступный HTML-контент с помощью CSS?
Emacs тормозит и создает 0-байтовые файлы в рабочем каталоге
Скрытое переполнение элементов с переменной высотой?
отправить электронное письмо в качестве параметра в URL-адресе в ошибке Rails
Ханойские башни с использованием списков Prolog
Хранение подписей в кодировке base64 в базе данных
Редактирование CSV-файла — удаление всей строки похожих значений на основе условия VIA Powershell
Как начать новый подсчет, когда значение категориальной переменной изменилось в R
Настройте параметры прокси-сервера HTTP в инструменте командной строки Android
Разбор кода JavaScript в модуле Node.js
Почему в С++ возврат указателя частной переменной разных объектов приводит к ошибке сегментации?
Рассчитать минимальное, максимальное и среднее значение в столбце данных
Как применить несколько фильтров в таблице данных угловых материалов?
Конфигурация конкретного узла в JBoss Clustering
Подчеркивания не считываются компонентом сценария в службах интеграции Microsoft
как настроить struts2 с помощью tomcat и apache с mod_jk?
Как использовать REST API RSA Archer для получения отчета?
JMH: не учитывать время внутреннего метода
Время жизни временного объекта, связанного с константной ссылкой (цепочка методов)
фильтр сканирования по подстроке