Подключение к Mongo с помощью набора реплик и соединителя mongo-hadoop для Spark

У меня есть процесс Spark, который в настоящее время использует мост mongo-hadoop (из https://github.com/mongodb/mongo-hadoop/blob/master/spark/src/main/python/README.rst ) для доступа к базе данных mongo:

mongo_url = 'mongodb://localhost:27017/db_name.collection_name'
mongo_rdd = spark_context.mongoRDD(mongo_url)

Экземпляр mongo теперь обновляется до кластера, к которому можно получить доступ только с набором реплик.

Как создать RDD с помощью соединителя mongo-hadoop? mongoRDD() переходит к mongoPairRDD(), который не может принимать несколько строк.

mongodb apache-spark rdd pymongo replicaset

Eka 04.08.2016 источник

arrow_upward
0
arrow_downward

Коннектор MongoDB Hadoop mongoRDD может принимать допустимую строку подключения MongoDB. .

Например, если теперь это набор реплик, вы можете указать:

mongodb://db1.example.net,db2.example.net:27002,db3.example.net:27003/?db_name&replicaSet=YourReplicaSetName

См. также соответствующую информацию:

Wan Bachtiar 06.09.2016