При чтении большого количества файлов orc из HDFS в каталоге spark не запускает никаких задач до определенного времени, и я не вижу никаких задач, выполняемых в это время. Я использую команду ниже для чтения конфигураций orc и spark.sql.
Что делает spark под капотом, когда выдается spark.read.orc?
spark.read.schema(schame1).orc("hdfs://test1").filter("date >= 20181001")
"spark.sql.orc.enabled": "true",
"spark.sql.orc.filterPushdown": "true
Кроме того, вместо прямого чтения файлов orc я попытался выполнить запрос Hive для того же набора данных. Но я не смог нажать предикат фильтра. Где я должен установить приведенную ниже конфигурацию "hive.optimize.ppd":"true",
"hive.optimize.ppd.storage":"true"
Подскажите, как лучше всего читать orc-файлы из HDFS и настраивать параметры?