Hortonworks HDP2.0 + жираф

У меня hortonworks HDP2.0 работает в песочнице (недавно установленной) на платформе Windows 8.1. Мне нужно узнать, как заставить жирафа работать с HDP 2.0.

Я думаю, что жираф в настоящее время не установлен с HDP 2.0 по умолчанию. Может ли кто-нибудь помочь мне установить жирафа, а также указать мне некоторые источники практических руководств по кодированию.


person Varun Gupta    schedule 25.11.2013    source источник


Ответы (2)


Попробуйте объединить это руководство hortonworks MapReduce и Быстрый старт Giraph.

Первый показывает вам, как создать общую папку и копировать файлы между вашей локальной и виртуальной машинами. Создайте банку Giraph (используя вторую ссылку), поместите в домашний каталог hue, предоставьте ему соответствующие разрешения и создайте входной файл (как подробно описано в первой ссылке).

При создании jar-файла Giraph вам нужно будет скомпилировать его с помощью Hadoop 2 — я сделал это с помощью команды mvn -Phadoop_2.0.0 package из корневого каталога Giraph.

В зависимости от версии Giraph, которую вы используете, у вас могут возникнуть проблемы с запуском, как описано во второй ссылке, я обнаружил

hadoop jar giraph.jar org.apache.giraph.GiraphRunner org.apache.giraph.examples.SimpleShortestPathsVertex -vif org.apache.giraph.io.formats.JsonLongDoubleFloatDoubleVertexInputFormat -vip /user/hue/tinygraph.txt -of org.apache.giraph.io.formats.IdWithValueTextOutputFormat -op /user/hue/output/shortestpaths -w 1

у меня сработало (обратите внимание на разницу в указании выходного формата с использованием -of вместо -vof и с использованием SimpleShortestPathsVertex вместо SimpleShortestPathsComputation.

При запуске jar я столкнулся с исключением

java.lang.IllegalArgumentException: "checkLocalJobRunnerConfiguration: When using "LocalJobRunner, you cannot run in split master / worker mode since there is only 1 task at a time!"

который я исправил, добавив строку

job.getConfiguration().setBoolean("giraph.SplitMasterWorker", false);

в org.apache.giraph.GiraphRunner.java в ядре giraph.

Я также столкнулся с проблемами с портами ZooKeeper, о которых подробно рассказал здесь.

Надеюсь это поможет!

person Mahana    schedule 30.04.2014
comment
Спасибо! Учебник очень помогает! - person Varun Gupta; 30.04.2014

Я использовал приведенный выше ответ FBUnicorn для составления полного руководства по установке Giraph 1.2.0 поверх только что развернутого экземпляра Hortonworks (HDP 2.2).

Я развернул HDP с помощью VirualBox, поскольку виртуальная машина будет иметь готовое подключение к Интернету, чего не было в случае с эквивалентом VMware.

Вот несколько шагов:

Клонировать git-репозиторий Giraph

cd /usr/local/
sudo git clone https://github.com/apache/giraph.git

Добавить пользователя в CentOS

useradd -G hadoop hduser
sudo passwd hduser
sudo chown -R hduser:hadoop giraph
su - hduser

Установите Maven (mvn) в CentOS (с помощью этой статье)

wget http://mirror.cc.columbia.edu/pub/software/apache/maven/maven-3/3.0.5/binaries/apache-maven-3.0.5-bin.tar.gz
sudo tar xzf apache-maven-3.0.5-bin.tar.gz -C /usr/local
cd /usr/local
sudo ln -s apache-maven-3.0.5 maven

Настройка Maven

sudo vi /etc/profile.d/maven.sh

Вставлять

export M2_HOME=/usr/local/maven
export PATH=${M2_HOME}/bin:${PATH}

Выйдите из системы и войдите снова. Убедитесь, что доступна версия 3 или выше maven.

mvn -version

Экспорт каталогов Hadoop и Giraph

vi $HOME/.bashrc

Добавлять

export HADOOP_HOME=/usr/hdp/2.2.0.0-2041/hadoop
export GIRAPH_HOME=/usr/local/giraph

Измените GraphRunner.java согласно ответу FBUnicorn (/usr/local/giraph/giraph-core/src/main/java/org/apache/giraph)

job.getConfiguration().setBoolean("giraph.SplitMasterWorker", false);

перед логическим verbose = !cmd.hasOption('q');

Скомпилировать Giraph

source $HOME/.bashrc
cd $GIRAPH_HOME
mvn -Phadoop_2 -fae -DskipTests clean install

Убедитесь, что банки созданы в папке $GIRAPH_HOME/giraph-core/target/.

Создайте тестовый пример с крошечным графиком

vi /tmp/tiny_graph.txt

Вставлять

[0,0,[[1,1],[3,3]]]
[1,0,[[0,1],[2,2],[3,1]]]
[2,0,[[1,2],[4,4]]]
[3,0,[[0,3],[1,1],[4,4]]]
[4,0,[[3,4],[2,4]]]

Создана папка HDFS:

hadoop fs -mkdir -p /user/hduser/input

Скопируйте график в HDFS hadoop fs -copyFromLocal /tmp/tiny_graph.txt /user/hduser/input/tiny_graph.txt

Убедитесь, что файл попал в репозиторий HDFS hadoop fs -ls /user/hduser/input

График процесса Giraph

hadoop jar /usr/local/giraph/giraph-examples/target/giraph-examples-1.2.0-SNAPSHOT-for-hadoop-2.5.1-jar-with-dependencies.jar org.apache.giraph.GiraphRunner org.apache.giraph.examples.SimpleShortestPathsComputation -vif org.apache.giraph.io.formats.JsonLongDoubleFloatDoubleVertexInputFormat -vip /user/hduser/input/tiny_graph.txt -vof org.apache.giraph.io.formats.IdWithValueTextOutputFormat -op /user/hduser/output/shortestpaths -w 1
person gdoubleu    schedule 20.01.2015