искра CDH5.4.2 может использовать HiveContent в оболочке искры, но не может открыть искру-sql

Я использую искру (автономную) CDH5.4.2.

После копирования hive-site.xml в $SPARK_HOME/conf я могу запросить из улья в spark-shell, как показано ниже:

scala> val hiveContext = новый org.apache.spark.sql.hive.HiveContext(sc); hiveContext: org.apache.spark.sql.hive.HiveContext = org.apache.spark.sql.hive.HiveContext@6c6f3a15 scala> hiveContext.sql("показать таблицы").show();

Но когда я открываю spark-sql, он показывает неправильно:

java.lang.ClassNotFoundException: org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver Не удалось загрузить основной класс org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver.

Вам нужно собрать Spark с -Phive и -Phive-thriftserver.

В чем разница между spark-shell и spark-sql? Если искра cdh не поддерживает куст, почему я могу использовать HiveConext?


person 陈志明    schedule 26.07.2016    source источник
comment
Как вы думаете, что именно должна делать команда spark-sql?!?   -  person Samson Scharfrichter    schedule 26.07.2016
comment
Спойлер: Cloudera прямо заявляет, что сервер JDBC Thrift Spark не поддерживается в CDH, поэтому неудивительно, что вы не можете его запустить.   -  person Samson Scharfrichter    schedule 26.07.2016
comment
Большое спасибо, я внимательно прочитаю официальный документ.   -  person 陈志明    schedule 26.07.2016


Ответы (1)


В Cloudera есть список неподдерживаемых функций:

https://docs.cloudera.com/runtime/7.2.6/spark-overview/topics/spark-unsupported-features.html

Сервер Thrift не поддерживается.

Это копия списка для 7.2.6:

  • Экспериментальные функции/API Apache Spark не поддерживаются, если не указано иное.
  • Использование JDBC Datasource API для доступа к Hive или Impala не поддерживается.
  • ADLS не поддерживается для всех компонентов Spark. Microsoft Azure Data Lake Store (ADLS) — это облачная файловая система, доступ к которой можно получить через приложения Spark. Spark с Kudu в настоящее время не поддерживается для данных ADLS. (Hive on Spark доступен для ADLS.)
  • Блокноты IPython/Jupyter не поддерживаются. Система ноутбуков IPython (переименованная в Jupyter в IPython 4.0) не поддерживается.
  • Некоторые функции Spark Streaming, такие как метод mapWithState, не поддерживаются.
  • Сервер Thrift JDBC/ODBC не поддерживается
  • Интерфейс командной строки Spark SQL не поддерживается.
  • GraphX ​​не поддерживается
  • SparkR не поддерживается
  • Структурированная потоковая передача поддерживается, но не поддерживаются следующие ее функции:
  • Непрерывная обработка, которая все еще является экспериментальной, не поддерживается.
  • Потоковые статические соединения с HBase не тестировались и поэтому не поддерживаются.
  • Оптимизатор затрат Spark (CBO) не поддерживается.
person Oleg Chirukhin    schedule 13.02.2021