Я провожу несколько тестов Hadoop, используя инструменты тестирования TestDFSIO и TeraSort. В основном я тестирую разное количество узлов данных, чтобы оценить линейность вычислительной мощности и масштабируемость узла данных.
Во время вышеупомянутого процесса мне, очевидно, приходилось несколько раз перезапускать всю среду Hadoop. Каждый раз, когда я перезапускаю Hadoop, все задания MapReduce удаляются, и счетчик заданий снова начинается с «job_2013*_0001». Для сравнения, для меня очень важно поддерживать все задания MapReduce, которые я запускал ранее. Итак, мой вопрос:
¿Как избежать удаления Hadoop всей истории заданий MapReduce после перезапуска? ¿Есть ли какое-либо свойство для управления удалением заданий после перезапуска среды Hadoop?
Спасибо!