У меня есть 1 мастер и 3 слейва (по 4 ядра)
По умолчанию минимальный размер раздела в моем искровом кластере составляет 32 МБ, а размер файла — 41 ГБ. Поэтому я пытаюсь уменьшить количество разделов, изменив минимальный размер на 64 МБ.
sc.hadoopConfiguration.setLong("mapreduce.input.fileinputformat.split.minsize", 64*1024*1024)
val data =sc.textFile("/home/ubuntu/BigDataSamples/Posts.xml",800)
data.partitions.size = 657
Итак, каковы преимущества увеличения размера раздела и уменьшения количества разделов. Потому что, когда мои разделы составляют около 1314, это заняло около 2-3 минут, и даже после уменьшения количества разделов это все еще занимает столько же времени.