Производительность чтения Apache Spark orc при чтении большого количества небольших файлов

При чтении большого количества файлов orc из HDFS в каталоге spark не запускает никаких задач до определенного времени, и я не вижу никаких задач, выполняемых в это время. Я использую команду ниже для чтения конфигураций orc и spark.sql.

Что делает spark под капотом, когда выдается spark.read.orc?

spark.read.schema(schame1).orc("hdfs://test1").filter("date >= 20181001")
"spark.sql.orc.enabled": "true",
"spark.sql.orc.filterPushdown": "true

Кроме того, вместо прямого чтения файлов orc я попытался выполнить запрос Hive для того же набора данных. Но я не смог нажать предикат фильтра. Где я должен установить приведенную ниже конфигурацию "hive.optimize.ppd":"true", "hive.optimize.ppd.storage":"true"

Подскажите, как лучше всего читать orc-файлы из HDFS и настраивать параметры?


person Giri    schedule 31.10.2018    source источник
comment
Хранение большого количества маленьких файлов в HDFS вызывает проблемы, даже со Spark — ср. stackoverflow.com/questions/43895728/ ››, и это еще хуже с ORC или Parquet, которые предназначены для БОЛЬШИХ файлов (т.е. 256 МБ и выше).   -  person Samson Scharfrichter    schedule 31.10.2018
comment
Возможно, вы захотите рассмотреть возможность хранения данных в другом хранилище, чем HDFS, например. Искра-Редис   -  person Guy Korland    schedule 07.11.2018