нагрузка на разъем зажигания и производительность стабильного загрузчика

У меня есть искровая работа, которая прямо сейчас извлекает данные из HDFS и преобразует их в плоские файлы для загрузки в Cassandra.

Таблица cassandra состоит из трех столбцов, но последние два являются коллекциями карт, поэтому структура данных является «сложной».

Прямо сейчас я использую команду COPY и получаю около 3 тыс. Строк в секунду, но это очень медленно, учитывая, что мне нужно загрузить около 50 миллионов записей.

Я вижу, что могу преобразовать CSV-файл в sstables, но я не вижу примера, включающего коллекции карт и / или списки.

Могу ли я использовать Spark connector для cassandra для загрузки данных с коллекциями карт и списков и получить лучшую производительность, чем просто команда COPY?


person lightweight    schedule 06.10.2015    source источник


Ответы (1)


Да, Spark Cassandra Connector может быть намного быстрее для файлов, уже находящихся в HDFS. Используя Spark, вы сможете распределенно захватывать и записывать в C *.

Даже без Spark с использованием загрузчика на основе Java, такого как https://github.com/brianmhess/cassandra-loader даст вам значительное улучшение скорости.

person RussS    schedule 06.10.2015
comment
да, я видел загрузчик, но я просто не понимаю, как его использовать ... не java-парень, поэтому мне сложно это понять ... - person lightweight; 06.10.2015