Вопросы по теме 'pyspark-sql'

Ошибка Pyspark при запросе cassandra для преобразования в кадры данных
Я получаю следующую ошибку при выполнении команды: user = sc.cassandraTable("DB NAME", "TABLE NAME").toDF() Traceback (most recent call last): File "<stdin>", line 1, in <module> File...
1280 просмотров
schedule 27.06.2023

Выбор пустых значений массива из Spark DataFrame
Учитывая DataFrame со следующими строками: rows = [ Row(col1='abc', col2=[8], col3=[18], col4=[16]), Row(col2='def', col2=[18], col3=[18], col4=[]), Row(col3='ghi', col2=[], col3=[], col4=[])] Я хотел бы удалить строки с пустым...
4091 просмотров

py4j.protocol.Py4JJavaError при выборе вложенного столбца в кадре данных с использованием инструкции select
Я пытаюсь выполнить простую задачу в искровом фрейме данных (python), который создает новый фрейм данных, выбирая определенный столбец и вложенные столбцы из другого фрейма данных, например: df.printSchema() root |-- time_stamp: long (nullable =...
1875 просмотров

как хранить сгруппированные данные в json в pyspark
Я новичок в писпарке У меня есть набор данных, который выглядит (просто снимок нескольких столбцов) Я хочу сгруппировать свои данные по ключу. Мой ключ CONCAT(a.div_nbr,a.cust_nbr) Моя конечная цель - преобразовать данные в JSON,...
3351 просмотров

Есть ли способ сгенерировать номер строки без преобразования кадра данных в rdd в pyspark 1.3.1?
Я использую pyspark 1.3.1, мне нужно создать уникальный идентификатор/номер для каждой строки в кадре данных. Поскольку оконные функции недоступны в версии Pyspark: 1.3.1, я не могу использовать функцию rownumber. Как я могу ввести номер строки...
48 просмотров

Pyspark: вычисление суммы двух соответствующих столбцов на основе условий двух столбцов в двух СДР.
У меня есть два RDD с одинаковыми столбцами: rdd1 :- +-----------------+ |mid|uid|frequency| +-----------------+ | m1| u1| 1| | m1| u2| 1| | m2| u1| 2| +-----------------+ рдд2 :- +-----------------+...
912 просмотров
schedule 27.11.2022

Pyspark работает медленнее, чем Hive
У меня есть 3 фрейма данных df1, df2 и df3. Каждый фрейм данных содержит примерно 3 миллиона строк. df1 и df3 имеет ок. 8 столбцов. df2 имеет только 3 столбца. (размер исходного текстового файла df1 составляет около 600 МБ) Выполняемые...
410 просмотров

Применение функции окна для вычисления различий в pySpark
Я использую pySpark и настроил свой фрейм данных с двумя столбцами, представляющими дневную цену актива следующим образом: ind = sc.parallelize(range(1,5)) prices = sc.parallelize([33.3,31.1,51.2,21.3]) data = ind.zip(prices) df =...
51556 просмотров

Случай, когда оператор с предложением IN в Pyspark
Я новичок в программировании на Spark, и у меня есть сценарий для присвоения значения, когда набор значений появляется в моем вводе. Ниже приведен традиционный код SQL, который я бы использовал для выполнения своей задачи. То же самое нужно сделать...
13945 просмотров
schedule 21.10.2023

Извлечь номер дня недели из строкового столбца (отметка даты и времени) в Spark API
Я новичок в Spark API. Я пытаюсь извлечь номер дня недели из столбца, например col_date (с отметкой даты и времени, например, «13AUG15: 09: 40: 15»), которая является строкой, и добавить еще один столбец в качестве дня недели (целое число). Я не...
7555 просмотров
schedule 27.01.2023

Сортировка RDD после группировки и суммирования
Я пытаюсь провести некоторый анализ некоторых данных о визге. Данные структурированы следующим образом: >>> yelp_df.printSchema() root |-- business_id: string (nullable = true) |-- cool: integer (nullable = true) |-- date: string...
830 просмотров
schedule 27.11.2022

PySpark DataFrame не может удалить дубликаты
Здравствуйте, я создал фрейм данных искры, и я пытаюсь удалить дубликаты: df.drop_duplicates(subset='id') Я получаю следующую ошибку: Py4JError: An error occurred while calling z:org.apache.spark.api.python.PythonUtils.toSeq. Trace:...
4853 просмотров

Групповые транзакции Python Spark во вложенную схему
Я хочу сгруппировать транзакции, хранящиеся в pyspark.sql.dataframe.DataFrame " ddf ", по столбцу " key ", который указывает источник транзакции (в данном случае идентификатор клиента). Группировка — довольно затратный процесс, поэтому я хочу...
436 просмотров
schedule 29.01.2023

Итерация / зацикливание паркетных файлов Spark в сценарии приводит к ошибке / накоплению памяти (с использованием запросов Spark SQL)
Я пытался выяснить, как предотвратить сбой Spark из-за проблем с памятью, когда я перебираю файлы паркета и несколько функций постобработки. Извините за поток текста, но это не совсем одна конкретная ошибка (я использую PySpark). Приносим извинения,...
2883 просмотров

Spark несколько условий присоединиться
Я использую spark sql для объединения трех таблиц, однако получаю сообщение об ошибке с несколькими условиями столбца. test_table = (T1.join(T2,T1.dtm == T2.kids_dtm, "inner") .join(T3, T3.kids_dtm == T1.dtm and...
8332 просмотров
schedule 01.08.2022

Заполните нулевые значения столбца фрейма данных Pyspark средним значением из того же столбца
С таким фреймом данных, rdd_2 = sc.parallelize([(0,10,223,"201601"), (0,10,83,"2016032"),(1,20,None,"201602"),(1,20,3003,"201601"), (1,20,None,"201603"), (2,40, 2321,"201601"), (2,30, 10,"201602"),(2,61, None,"201601")]) df_data =...
15316 просмотров

Приведение API pyspark Dataframe ('timestamp') не работает со строками меток времени
У меня есть данные, которые выглядят так: {"id":1,"createdAt":"2016-07-01T16:37:41-0400"} {"id":2,"createdAt":"2016-07-01T16:37:41-0700"} {"id":3,"createdAt":"2016-07-01T16:37:41-0400"} {"id":4,"createdAt":"2016-07-01T16:37:41-0700"}...
3999 просмотров

имя программы pyspark 'искра' не определено
Ниже программа выдает ошибку с именем "искра" не определено. Traceback (most recent call last): File "pgm_latest.py", line 232, in <module> sconf =SparkConf().set(spark.dynamicAllocation.enabled,true)...
9439 просмотров
schedule 08.04.2023

Как вставить значение в пустой фрейм данных в искре
Я разрабатываю искровое приложение с использованием SPARK sql, одна из моих задач - выбрать значение из двух таблиц и вставить его в пустую таблицу, что является моим результатом. но для этого я экспериментирую с искрой для создания пустой таблицы, я...
9631 просмотров

преобразование кадра данных pyspark в помеченный точечный объект
df: [Row(split(value,,)=[u'21.0', u'1',u'2']),Row(split(value,,)=[u'22.0', u'3',u'4'])] как преобразовать каждую строку в df в объект LabeledPoint , который состоит из метки и функций, где первое значение — это метка, а остальные 2 — функции в...
3510 просмотров