Я работаю с Apache Spark для механизма обработки запросов. Проблема, с которой я недавно столкнулся, заключается в том, что я хочу ограничить количество элементов в файле rdd.
Я знаю, что в rdd есть функция take, которую можно использовать для извлечения только заданного количества элементов из rdd. Однако после применения этой функции результатом будет не rdd.
Важно, что даже если мы применим эту функциональность, rdd должен оставаться (как преобразование)
Итак, на данный момент я сделал следующее
public JavaRDD<Map<String,Object>> limitRDD(JavaRDD<Map<String,Object>> rdd, JavaSparkContext context, int number){
context.parallelize(rdd.take(number));
return rdd;
Я считаю, что это огромная трата времени. Однако я не могу придумать, как использовать преобразования, такие как карта, фильтр, для реализации этой функции.
Есть ли способ добиться этого без того, что я сделал здесь?
Спасибо