Я пытаюсь запросить hdfs, в котором много файлов деталей (avro). Недавно мы внесли изменение, чтобы уменьшить параллелизм, и, таким образом, размер файлов деталей увеличился, размер каждого из этих файлов деталей находится в диапазоне от 750 МБ до 2 ГБ (мы используем потоковую передачу искр для записи даты в hdfs с 10-минутными интервалами, поэтому размер этих файлов зависит от объема данных, которые мы обрабатываем из восходящего потока). Число файлов деталей будет около 500. Мне было интересно, будет ли размер этих файлов деталей / количество файлов деталей играть какую-либо роль в производительности Spark SQL?
При необходимости я могу предоставить дополнительную информацию.