Если у меня есть сервер Hadoop (псевдораспределенный режим), работающий на отдельном компьютере, мне все равно нужно иметь эти файлы в каталоге conf моего Druid? : http://druid.io/docs/latest/configuration/hadoop.html а>
Так, как я это вижу:
Похоже, что эти файлы -site.xml предназначены для сервера Hadoop ..., а Druid действует только как клиент Hadoop. Так что я не думаю, что Druid нужен hdfs-site.xml.
Core-site.xml ... ладно, я могу достать. Я имею в виду, что Друиду необходимо знать IP-адрес узла имени (hadoop).
Mapred-site.xml, частично. Druid должен знать статус заданий mapreduce (я полагаю, он делегирует индексацию Hadoop как задание MR). Поэтому ему необходимо связаться с этими трекерами вакансий, чтобы узнать, завершено ли индексирование / не удалось / не выполняется ли индексирование. Для этого ему нужен URL-адрес Hadoop JT.
Однако Druid не нуждается в этом свойстве "mapreduce.cluster.local.dir", потому что он не участвует активно в работе MR.
Пряжа-site.xml? Может, стоит остаться, частично. Хотя бы за подачу работы (?).
А как насчет HDFS-site.xml? Думаю, от этого можно полностью отказаться.
Емкость-scheduler.xml? Это может уйти.
Пожалуйста, поправьте меня, если я ошибаюсь.
Эти вопросы / сомнения возникают из-за того, что я новичок в hadoop. У меня запущена установка hadoop. Псевдо-распределенный режим. Я также протестировал его с библиотекой javascript webhdfs для записи и чтения файла. Также попробовали образцы MR-заданий, предоставленные hadoop dist. Так что я думаю, что с моей настройкой hadoop все в порядке. Я просто немного не уверен в сайте Druid, отчасти потому, что документ не совсем ясен об этом.
Кстати .... У меня был hadoop 2.7.2 ... Хотя библиотеки hadoop-client, используемые Druid, все еще находятся на 2.3.0.
Следует ли мне понизить версию моего сервера hadoop до версии 2.3.0?
http://druid.io/docs/latest/operations/other-hadoop.html
Танск, Рака