Производительность чтения Apache Spark orc при чтении большого количества небольших файлов

При чтении большого количества файлов orc из HDFS в каталоге spark не запускает никаких задач до определенного времени, и я не вижу никаких задач, выполняемых в это время. Я использую команду ниже для чтения конфигураций orc и spark.sql.

Что делает spark под капотом, когда выдается spark.read.orc?

spark.read.schema(schame1).orc("hdfs://test1").filter("date >= 20181001")
"spark.sql.orc.enabled": "true",
"spark.sql.orc.filterPushdown": "true

Кроме того, вместо прямого чтения файлов orc я попытался выполнить запрос Hive для того же набора данных. Но я не смог нажать предикат фильтра. Где я должен установить приведенную ниже конфигурацию "hive.optimize.ppd":"true", "hive.optimize.ppd.storage":"true"

Подскажите, как лучше всего читать orc-файлы из HDFS и настраивать параметры?

apache-spark apache-spark-sql apache-spark-2.2

Giri 31.10.2018 источник

comment

Хранение большого количества маленьких файлов в HDFS вызывает проблемы, даже со Spark — ср. stackoverflow.com/questions/43895728/ ››, и это еще хуже с ORC или Parquet, которые предназначены для БОЛЬШИХ файлов (т.е. 256 МБ и выше). - Samson Scharfrichter 31.10.2018

comment

Возможно, вы захотите рассмотреть возможность хранения данных в другом хранилище, чем HDFS, например. Искра-Редис - Guy Korland 07.11.2018

Производительность чтения Apache Spark orc при чтении большого количества небольших файлов

Вопросы по теме