Hadoop удаляет историю MapReduce при перезапуске

Я провожу несколько тестов Hadoop, используя инструменты тестирования TestDFSIO и TeraSort. В основном я тестирую разное количество узлов данных, чтобы оценить линейность вычислительной мощности и масштабируемость узла данных.

Во время вышеупомянутого процесса мне, очевидно, приходилось несколько раз перезапускать всю среду Hadoop. Каждый раз, когда я перезапускаю Hadoop, все задания MapReduce удаляются, и счетчик заданий снова начинается с «job_2013*_0001». Для сравнения, для меня очень важно поддерживать все задания MapReduce, которые я запускал ранее. Итак, мой вопрос:

¿Как избежать удаления Hadoop всей истории заданий MapReduce после перезапуска? ¿Есть ли какое-либо свойство для управления удалением заданий после перезапуска среды Hadoop?

Спасибо!


person VikBar    schedule 28.10.2013    source источник


Ответы (1)


журналы истории заданий MR не удаляются сразу после перезапуска Hadoop, новое задание будет отсчитываться от *_0001, и только новые задания, запущенные после перезапуска Hadoop, будут отображаться на веб-портале диспетчера ресурсов. На самом деле, есть 2 параметра, связанные с журналом, из пряжа по умолчанию:

# this is where you can find the MR job history logs
yarn.nodemanager.log-dirs = ${yarn.log.dir}/userlogs 

# this is how long the history logs will be retained
yarn.nodemanager.log.retain-seconds = 10800

а ${yarn.log.dir} по умолчанию определяется в $HADOOP_HONE/etc/hadoop/yarn-env.sh.

YARN_LOG_DIR="$HADOOP_YARN_HOME/logs"

Кстати, аналогичные настройки также можно найти в mapred-env.sh, если вы используете Hadoop 1.X.

person zhutoulala    schedule 25.11.2013
comment
Спасибо Жутоулала за ответ. Я думал, что любой орган даст мне ответ. Я проверю ваше предложение! - person VikBar; 23.01.2014