Я новичок в Spark, и я запускаю свое приложение для чтения данных размером 14 КБ из текстового поля, выполнения некоторых преобразований и действий (сбор, сбор AsMap) и сохранения данных в базе данных.
Я запускаю его локально на своем макбуке с 16 ГБ памяти и 8 логическими ядрами.
Для кучи Java Max установлено значение 12G.
Вот команда, которую я использую для запуска приложения.
bin/spark-submit --class com.myapp.application --master local[*] --executor-memory 2G --driver-memory 4G /jars/application.jar
Я получаю следующее предупреждение
13.01.2017, 16:57:31.579 [Исполнитель задачи запуска worker-8hread] ПРЕДУПРЕЖДЕНИЕ org.apache.spark.storage.MemoryStore — Недостаточно места для кэширования rdd_57_0 в памяти! (на данный момент рассчитано 26,4 МБ)
Может ли кто-нибудь указать мне, что здесь происходит не так и как я могу улучшить производительность? Также как оптимизировать suffle-spill ? Вот вид разлива, который происходит в моей локальной системе
spark.executor.memory
не действует. так что просто попробуйтеspark.driver.memory
больше 6 г, так как у вас 16 г оперативной памяти. - person Rajat Mishra   schedule 14.01.2017