Мои данные хорошо организованы по ключу раздела на Cassandra. Я хотел бы получить эти данные в Spark и сохранить те же разделы.
Моя цель - избежать очень большой перетасовки.
PS: я использую Cassandra 2.1 и Spark 1.5.
Мои данные хорошо организованы по ключу раздела на Cassandra. Я хотел бы получить эти данные в Spark и сохранить те же разделы.
Моя цель - избежать очень большой перетасовки.
PS: я использую Cassandra 2.1 и Spark 1.5.
Соединитель Spark Cassandra считывает диапазоны токенов C* в разделы Spark. Это означает, что все значения для любого заданного ключа раздела Cassandra будут находиться в одном и том же разделе Spark.
https://academy.datastax.com/demos/how-spark-cassandra-connector-reads-data