Не удается подключиться к хранилищу метаданных Hive из приложения Spark

Я пытаюсь подключиться к Hive-metastore из приложения Spark, но каждый раз он застревает при попытке подключения и вылетает из-за тайм-аута:

INFO  metastore:376 - Trying to connect to metastore with URI thrift://hive-metastore:9083
WARN  metastore:444 - set_ugi() not successful, Likely cause: new client talking to old server. Continuing without it.
org.apache.thrift.transport.TTransportException: java.net.SocketTimeoutException: Read timed out

Приложение вылетает в строке, где я создаю внешнюю таблицу Hive

Я запускаю Hive-metastore, а также приложение Spark (с использованием оператора Spark K8s) в кластере Kubernetes. Я проверил доступность службы Hive-metastore за пределами кластера с помощью telnet (IP-адрес узла: порт узла службы) и свернул службу внутри кластера, служба кажется доступной для оценки. В чем может быть причина этой ошибки?

Это конфигурация URI Hive-metastore в приложении Spark.

val sparkSession = SparkSession
  .builder()
  .config(sparkConf)
  .config("hive.metastore.uris", "thrift://hive-metastore:9083")
  .config("hive.exec.dynamic.partition", "true")
  .config("hive.exec.dynamic.partition.mode", "nonstrict")
  .enableHiveSupport()
  .getOrCreate()

Конфигурация yaml Hive-metastore выглядит так:

apiVersion: v1
kind: Service
metadata:
  name: hive-metastore-np
spec:
  selector:
    app: hive-metastore
  ports:
    - protocol: TCP
      targetPort: 9083
      port: 9083
      nodePort: 32083
  type: NodePort
---
apiVersion: apps/v1
kind: Deployment
metadata:
  name: hive-metastore
spec:
  replicas: 1
  selector:
    matchLabels:
      app: hive-metastore
  template:
    metadata:
      labels:
        app: hive-metastore
    spec:
      containers:
        - name: hive-metastore
          image: mozdata/docker-hive-metastore:1.2.1
          imagePullPolicy: Always
          env:
            - name: DB_URI
              value: postgresql
            - name: DB_USER
              value: hive
            - name: DB_PASSWORD
              value: hive-password
            - name: CORE_CONF_fs_defaultFS
              value: hdfs://hdfs-namenode:8020
          ports:
            - containerPort: 9083

ОБНОВЛЕНИЕ: когда я пытаюсь завить hive-metastore: 9083, служба доступна, но возвращает пустой ответ, что означает, что может быть проблема с определением Hive-metastore K8s.

> GET / HTTP/1.1
> User-Agent: curl/7.35.0
> Host: hive-metastore:9083
> Accept: */*

person Cassie    schedule 21.02.2019    source источник
comment
Вы проверяли telnet также на рабочих машинах?   -  person Ehud Lev    schedule 21.02.2019
comment
У меня есть кластер с одним узлом с Minikube, поэтому я могу проверить только один узел, если вы это имеете в виду   -  person Cassie    schedule 22.02.2019


Ответы (1)


Эта ошибка возникает, когда существует несоответствие между версиями jar-файлов улья в вашем кластере и jar-файлов улья, которые использует Spark (что обычно согласуется с используемой вами версией Spark). Вам необходимо определить версию jar-файлов кустов, используемых в кластере, и добавить эти jar-файлы в образ Spark. Затем вы можете заставить свой SparkSession использовать эти совместимые jar-файлы улья, добавив следующие конфигурации в свой SparkSession:

  .conf("spark.sql.hive.metastore.version", "<your hive metastore version>")
  .conf("spark.sql.hive.metastore.version", "<your hive version>")
  .conf("spark.sql.hive.metastore.jars", "<uri of all the correct hive jars>")
person K.Naga    schedule 25.02.2019