Вопросы по теме 'spark-hive'

невозможно просмотреть данные таблиц куста после обновления в искре
Случай: у меня есть таблица HiveTest, которая представляет собой таблицу ORC и транзакцию, установленную как true, загруженную в искровую оболочку и просмотренные данные. var rdd= objHiveContext.sql("select * from HiveTest") rdd.show() ---...
5926 просмотров

искровой улей java.lang.linkageerror
При выполнении таблицы Drop, если она существует в Spark HiveContext, я получаю следующую ошибку. Hivecontext.sql (удалить таблицу, если существует table_name) java.lang.LinkageError: ClassCastException: попытка...
437 просмотров
schedule 20.12.2023

Apache spark Hive, исполняемый JAR с оттенком maven
Я создаю приложение apache-spark с помощью Apache Spark Hive. Пока все было в порядке - я запускал тесты и все приложение в Intellij IDEA и все тесты вместе, используя maven. Теперь я хочу запустить все приложение из bash и позволить ему работать...
3267 просмотров

Spark создает массив полей с тем же ключом
У меня есть таблица кустов, которая присутствует поверх искрового контекста. Формат таблицы приведен ниже. | key | param1 | Param 2| ------------------------- | A | A11 | A12 | | B | B11 | B12 | | A | A21 | A22 | Я...
128 просмотров
schedule 23.03.2024

Spark Hive: фильтровать строки одного DataFrame по значениям другого столбца DataFrame.
У меня есть следующие два DataFrames : DataFrame "dfPromotion": date | store =================== 2017-01-01 | 1 2017-01-02 | 1 DataFrame "dfOther": date | store =================== 2017-01-01 | 1 2017-01-03 | 1...
2590 просмотров

Как оптимизировать операции spark sql на большом фрейме данных?
У меня есть большая таблица улья (~ 9 миллиардов записей и ~ 45 ГБ в формате орков). Я использую Spark sql для профилирования таблицы, но на выполнение каких-либо операций с этим уходит слишком много времени. Просто подсчет самого фрейма входных...
3243 просмотров

Spark sql saveAsTable создает режим добавления таблицы, если новый столбец добавляется в схему avro
Я использую Spark sql DataSet для записи данных в куст. Он отлично работает, если схема такая же, но если я изменю схему avro, добавив новый столбец между ними, она покажет ошибку (схема предоставляется из реестра схем) Error running job...
2512 просмотров
schedule 11.10.2022

Внешняя таблица пуста при сохранении данных ORC
Я хочу записать данные ORC во внешнюю таблицу Hive из фрейма данных Spark. Когда я сохраняю фрейм данных в виде таблицы, данные отправляются в существующую внешнюю таблицу, однако, когда я пытаюсь сохранить данные в формате ORC в каталог, а затем...
247 просмотров
schedule 26.12.2022

Не удается запустить простой файл hql с помощью pyspark
Я использую pyspark==2.4.3 и просто хочу запустить файл hql. use myDatabaseName; show tables; и вот что я пробовал from os.path import expanduser, join, abspath from pyspark.sql import SparkSession from pyspark.sql import Row #...
99 просмотров
schedule 24.06.2023