Apache spark 3.0 со стеком HDP 2.6

Мы планируем настроить Apache Spark 3.0 за пределами существующего кластера HDP 2.6 и отправлять задания с использованием пряжи (v2.7) в этом кластере без обновления или модификации. В настоящее время пользователи используют Spark 2.3, который входит в стек HDP. Цель состоит в том, чтобы включить Apache Spark 3.0 вне кластера HDP, не прерывая текущие задания.

Каковы наилучшие подходы для этого? Настроить клиентские узлы apache 3.0 за пределами кластера HDP и отправить его с новых клиентских узлов?

Есть рекомендации по этому поводу? Что следует избегать конфликта с текущим стеком HDP и его компонентами?


person mpkd567    schedule 07.10.2020    source источник


Ответы (1)


Создан Spark 3.0.1 из исходного кода Spark 3.0.1 с конкретной (HDP 2.6) версией Hadoop, Hive. Затем развернул его только на клиентских узлах HDP. Предварительно созданные двоичные файлы Spark 3.0.1 имели проблемы совместимости с Hive 1.2.1, так как он был создан с последней версией Hive.

Варианты сборки:

./build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 -Phive-1.2 -Phive-thriftserver -DskipTests -Dmaven.test.skip=true clean package
person mpkd567    schedule 13.11.2020