HDP MapReduce Jobs Concurrency

Я пытаюсь импортировать данные из Oracle во внутренний Hive с помощью sqoop. Мои запросы sqoop работают нормально, но когда я пытаюсь запустить несколько запросов sqoop одновременно в сценарии, выполняется только одно задание MapReduce, а остальные ждут в принятой очереди на YARN. Таблицы, которые я пытаюсь импортировать с помощью sqoop, имеют примерно ~ 500 миллионов строк и ~ 100 столбцов. Я внес некоторые изменения в конфигурацию служб, но проблема не исчезла.

Есть ли способ запускать эти задания MapReduce одновременно? Информация о моем кластере указана ниже.

HDP 3.0.1, Ambari 2.7.0, 4 главных узла, 3 служебных узла, 7 рабочих узлов. Каждый узел имеет 128 ГБ памяти и 32 процессора. Версия Sqoop - 1.4.7. Спасибо. Пряжа Confugiration-1

Конфигурация ПРЯЖИ-2

MapReduce Confugiration

Конфигурация HDFS

Очередь приложений YARN


person r00t    schedule 11.07.2020    source источник


Ответы (1)


yarnsite.xml необходимо настроить для использования другой политики планирования. Я считаю, что по умолчанию выбран FIFO.

Раньше это веб-страница, которую я использовал для настройки планировщика емкости. Я думаю, вы можете захотеть использовать Fair Scheduler, но выбор в конечном итоге за вами. http://www.corejavaguru.com/bigdata/hadoop-tutorial/yarn-scheduler

Примечание: вам может потребоваться добавить дополнительные аргументы конфигурации при отправке вашей работы. Например, в планировщике емкости вам необходимо указать, в какую очередь нужно добавить задание.

person Bobby    schedule 16.07.2020