У меня есть искровая работа, которая прямо сейчас извлекает данные из HDFS и преобразует их в плоские файлы для загрузки в Cassandra.
Таблица cassandra состоит из трех столбцов, но последние два являются коллекциями карт, поэтому структура данных является «сложной».
Прямо сейчас я использую команду COPY и получаю около 3 тыс. Строк в секунду, но это очень медленно, учитывая, что мне нужно загрузить около 50 миллионов записей.
Я вижу, что могу преобразовать CSV-файл в sstables, но я не вижу примера, включающего коллекции карт и / или списки.
Могу ли я использовать Spark connector для cassandra для загрузки данных с коллекциями карт и списков и получить лучшую производительность, чем просто команда COPY?