нагрузка на разъем зажигания и производительность стабильного загрузчика

У меня есть искровая работа, которая прямо сейчас извлекает данные из HDFS и преобразует их в плоские файлы для загрузки в Cassandra.

Таблица cassandra состоит из трех столбцов, но последние два являются коллекциями карт, поэтому структура данных является «сложной».

Прямо сейчас я использую команду COPY и получаю около 3 тыс. Строк в секунду, но это очень медленно, учитывая, что мне нужно загрузить около 50 миллионов записей.

Я вижу, что могу преобразовать CSV-файл в sstables, но я не вижу примера, включающего коллекции карт и / или списки.

Могу ли я использовать Spark connector для cassandra для загрузки данных с коллекциями карт и списков и получить лучшую производительность, чем просто команда COPY?

cassandra spark-cassandra-connector

lightweight 06.10.2015 источник

Ответы (1)

arrow_upward
1
arrow_downward

Да, Spark Cassandra Connector может быть намного быстрее для файлов, уже находящихся в HDFS. Используя Spark, вы сможете распределенно захватывать и записывать в C *.

Даже без Spark с использованием загрузчика на основе Java, такого как https://github.com/brianmhess/cassandra-loader даст вам значительное улучшение скорости.

RussS 06.10.2015

comment

да, я видел загрузчик, но я просто не понимаю, как его использовать ... не java-парень, поэтому мне сложно это понять ... - lightweight; 06.10.2015

нагрузка на разъем зажигания и производительность стабильного загрузчика

Ответы (1)

Вопросы по теме