Я пытаюсь получить некоторые данные из дистрибутива Cloudera Quick Start Hadoop (для нас это виртуальная машина Linux) в нашей базе данных SAP HANA с помощью SAP Spark Controller. Каждый раз, когда я запускаю задание в HANA, оно зависает, и я вижу, что следующее предупреждение постоянно регистрируется каждые 10-15 секунд в файле журнала контроллера SPARK, если только я не уничтожу задание.
WARN org.apache.spark.scheduler.cluster.YarnScheduler: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources
Хотя это зарегистрировано как предупреждение, похоже, что это проблема, которая препятствует выполнению задания в Cloudera. Из того, что я прочитал, это либо проблема с управлением ресурсами в Cloudera, либо проблема с заблокированными портами. В нашем случае у нас нет заблокированных портов, поэтому он должен быть первым.
Наша Cloudera работает на одном узле и имеет 16GB RAM
с 4 CPU cores
.
Глядя на общую конфигурацию, у меня есть куча предупреждений, но я не могу определить, имеют ли они отношение к проблеме или нет.
Вот также, как ОЗУ распределяется в Cloudera < img src="https://i.stack.imgur.com/hJc2h.png" alt="введите здесь описание изображения">
Было бы здорово, если бы вы помогли мне определить причину этой проблемы, потому что за последние несколько дней я пробовал различные комбинации вещей, но безуспешно.
Спасибо, Димитар