Druid + Hadoop (для обоих применений, глубокого хранения и индексации)

Если у меня есть сервер Hadoop (псевдораспределенный режим), работающий на отдельном компьютере, мне все равно нужно иметь эти файлы в каталоге conf моего Druid? : http://druid.io/docs/latest/configuration/hadoop.html

Так, как я это вижу:

Похоже, что эти файлы -site.xml предназначены для сервера Hadoop ..., а Druid действует только как клиент Hadoop. Так что я не думаю, что Druid нужен hdfs-site.xml.

Core-site.xml ... ладно, я могу достать. Я имею в виду, что Друиду необходимо знать IP-адрес узла имени (hadoop).

Mapred-site.xml, частично. Druid должен знать статус заданий mapreduce (я полагаю, он делегирует индексацию Hadoop как задание MR). Поэтому ему необходимо связаться с этими трекерами вакансий, чтобы узнать, завершено ли индексирование / не удалось / не выполняется ли индексирование. Для этого ему нужен URL-адрес Hadoop JT.

Однако Druid не нуждается в этом свойстве "mapreduce.cluster.local.dir", потому что он не участвует активно в работе MR.

Пряжа-site.xml? Может, стоит остаться, частично. Хотя бы за подачу работы (?).

А как насчет HDFS-site.xml? Думаю, от этого можно полностью отказаться.

Емкость-scheduler.xml? Это может уйти.

Пожалуйста, поправьте меня, если я ошибаюсь.


Эти вопросы / сомнения возникают из-за того, что я новичок в hadoop. У меня запущена установка hadoop. Псевдо-распределенный режим. Я также протестировал его с библиотекой javascript webhdfs для записи и чтения файла. Также попробовали образцы MR-заданий, предоставленные hadoop dist. Так что я думаю, что с моей настройкой hadoop все в порядке. Я просто немного не уверен в сайте Druid, отчасти потому, что документ не совсем ясен об этом.

Кстати .... У меня был hadoop 2.7.2 ... Хотя библиотеки hadoop-client, используемые Druid, все еще находятся на 2.3.0.

Следует ли мне понизить версию моего сервера hadoop до версии 2.3.0?

http://druid.io/docs/latest/operations/other-hadoop.html

Танск, Рака


person Cokorda Raka    schedule 10.12.2016    source источник


Ответы (1)


Добавьте mapred-site.xml core-site.xml hdfs-site.xml yarn-site.xml в путь к классам. Также вам не нужно понижать версию, друид хорошо работает с 2.7.X. Как видно из doc, вы можете использовать несколько версий hadoop. .

person Slim Bouguerra    schedule 10.12.2016
comment
И в этом случае (используя hadoop 2.7), могу ли я удалить mapreduce.jobtracker.http.address из mapred-site.xml, как описано здесь? : stackoverflow.com/questions/29680155/ (я наткнулся на этот пост, потому что не видел портов 9103 и 9100 (трекер заданий и трекер задач в druid doc). Оказывается, теперь это диспетчер ресурсов, 8088. И тоже. есть порт 50030 и 50060 (ref .: hadoop.apache.org/docs/r2.7.2/hadoop-mapreduce-client/). В моей настройке используется Yarn. - person Cokorda Raka; 10.12.2016
comment
Мне все еще непонятно: запускает ли Druid (настроенный на использование Hadoop) некоторые серверные компоненты hadoop? Мне это интересно, потому что я вижу: io.seqfile.local.dir в друиде. io / docs / latest / configuration / hadoop.html ... Мне кажется, что это свойство hadoop-server. Я думал, что Druid был просто клиентом Hadoop. - person Cokorda Raka; 10.12.2016