Я использую искру 1.6.1.
Мое приложение spark читает более 10000 файлов паркета, хранящихся в s3.
val df = sqlContext.read.option("mergeSchema", "true").parquet(myPaths: _*)
myPaths
— это Array[String]
, который содержит пути к 10000 файлам паркета. Каждый путь похож на этот s3n://bucketname/blahblah.parquet
Spark предупреждает сообщение, как показано ниже.
ПРЕДУПРЕЖДЕНИЕ TaskSetManager: Этап 4 содержит задачу очень большого размера (108 КБ). Максимальный рекомендуемый размер задачи — 100 КБ.
Spark все равно удалось запустить и завершить работу, но я думаю, что это может замедлить работу по обработке искры.
Есть ли у кого-нибудь хорошее предложение по этой проблеме?