Публикации по тегам pyspark-sql

Вопросы по теме 'pyspark-sql'

Ошибка Pyspark при запросе cassandra для преобразования в кадры данных

Я получаю следующую ошибку при выполнении команды: user = sc.cassandraTable("DB NAME", "TABLE NAME").toDF() Traceback (most recent call last): File "<stdin>", line 1, in <module> File...

1280 просмотров

cassandra pyspark pyspark-sql

27.06.2023

Выбор пустых значений массива из Spark DataFrame

Учитывая DataFrame со следующими строками: rows = [ Row(col1='abc', col2=[8], col3=[18], col4=[16]), Row(col2='def', col2=[18], col3=[18], col4=[]), Row(col3='ghi', col2=[], col3=[], col4=[])] Я хотел бы удалить строки с пустым...

4091 просмотров

python apache-spark pyspark apache-spark-sql pyspark-sql

08.07.2023

py4j.protocol.Py4JJavaError при выборе вложенного столбца в кадре данных с использованием инструкции select

Я пытаюсь выполнить простую задачу в искровом фрейме данных (python), который создает новый фрейм данных, выбирая определенный столбец и вложенные столбцы из другого фрейма данных, например: df.printSchema() root |-- time_stamp: long (nullable =...

1875 просмотров

apache-spark pyspark apache-spark-sql pyspark-sql

15.10.2022

как хранить сгруппированные данные в json в pyspark

Я новичок в писпарке У меня есть набор данных, который выглядит (просто снимок нескольких столбцов) Я хочу сгруппировать свои данные по ключу. Мой ключ CONCAT(a.div_nbr,a.cust_nbr) Моя конечная цель - преобразовать данные в JSON,...

3351 просмотров

apache-spark pyspark dataframe apache-spark-sql pyspark-sql

03.01.2024

Есть ли способ сгенерировать номер строки без преобразования кадра данных в rdd в pyspark 1.3.1?

Я использую pyspark 1.3.1, мне нужно создать уникальный идентификатор/номер для каждой строки в кадре данных. Поскольку оконные функции недоступны в версии Pyspark: 1.3.1, я не могу использовать функцию rownumber. Как я могу ввести номер строки...

48 просмотров

apache-spark pyspark apache-spark-sql pyspark-sql

09.06.2023

Pyspark: вычисление суммы двух соответствующих столбцов на основе условий двух столбцов в двух СДР.

У меня есть два RDD с одинаковыми столбцами: rdd1 :- +-----------------+ |mid|uid|frequency| +-----------------+ | m1| u1| 1| | m1| u2| 1| | m2| u1| 2| +-----------------+ рдд2 :- +-----------------+...

912 просмотров

python apache-spark pyspark pyspark-sql

27.11.2022

Pyspark работает медленнее, чем Hive

У меня есть 3 фрейма данных df1, df2 и df3. Каждый фрейм данных содержит примерно 3 миллиона строк. df1 и df3 имеет ок. 8 столбцов. df2 имеет только 3 столбца. (размер исходного текстового файла df1 составляет около 600 МБ) Выполняемые...

410 просмотров

apache-spark pyspark apache-spark-sql pyspark-sql

21.07.2022

Применение функции окна для вычисления различий в pySpark

Я использую pySpark и настроил свой фрейм данных с двумя столбцами, представляющими дневную цену актива следующим образом: ind = sc.parallelize(range(1,5)) prices = sc.parallelize([33.3,31.1,51.2,21.3]) data = ind.zip(prices) df =...

51556 просмотров

pyspark window-functions pyspark-sql spark-dataframe

13.12.2021

Случай, когда оператор с предложением IN в Pyspark

Я новичок в программировании на Spark, и у меня есть сценарий для присвоения значения, когда набор значений появляется в моем вводе. Ниже приведен традиционный код SQL, который я бы использовал для выполнения своей задачи. То же самое нужно сделать...

13945 просмотров

apache-spark pyspark pyspark-sql

21.10.2023

Извлечь номер дня недели из строкового столбца (отметка даты и времени) в Spark API

Я новичок в Spark API. Я пытаюсь извлечь номер дня недели из столбца, например col_date (с отметкой даты и времени, например, «13AUG15: 09: 40: 15»), которая является строкой, и добавить еще один столбец в качестве дня недели (целое число). Я не...

7555 просмотров

pyspark pyspark-sql

27.01.2023

Сортировка RDD после группировки и суммирования

Я пытаюсь провести некоторый анализ некоторых данных о визге. Данные структурированы следующим образом: >>> yelp_df.printSchema() root |-- business_id: string (nullable = true) |-- cool: integer (nullable = true) |-- date: string...

830 просмотров

apache-spark pyspark pyspark-sql

27.11.2022

PySpark DataFrame не может удалить дубликаты

Здравствуйте, я создал фрейм данных искры, и я пытаюсь удалить дубликаты: df.drop_duplicates(subset='id') Я получаю следующую ошибку: Py4JError: An error occurred while calling z:org.apache.spark.api.python.PythonUtils.toSeq. Trace:...

4853 просмотров

python apache-spark pyspark apache-spark-sql pyspark-sql

13.07.2023

Групповые транзакции Python Spark во вложенную схему

Я хочу сгруппировать транзакции, хранящиеся в pyspark.sql.dataframe.DataFrame " ddf ", по столбцу " key ", который указывает источник транзакции (в данном случае идентификатор клиента). Группировка — довольно затратный процесс, поэтому я хочу...

436 просмотров

pyspark pyspark-sql spark-dataframe

29.01.2023

Итерация / зацикливание паркетных файлов Spark в сценарии приводит к ошибке / накоплению памяти (с использованием запросов Spark SQL)

Я пытался выяснить, как предотвратить сбой Spark из-за проблем с памятью, когда я перебираю файлы паркета и несколько функций постобработки. Извините за поток текста, но это не совсем одна конкретная ошибка (я использую PySpark). Приносим извинения,...

2883 просмотров

loops apache-spark pyspark apache-spark-sql pyspark-sql

15.07.2022

Spark несколько условий присоединиться

Я использую spark sql для объединения трех таблиц, однако получаю сообщение об ошибке с несколькими условиями столбца. test_table = (T1.join(T2,T1.dtm == T2.kids_dtm, "inner") .join(T3, T3.kids_dtm == T1.dtm and...

8332 просмотров

pyspark-sql

01.08.2022

Заполните нулевые значения столбца фрейма данных Pyspark средним значением из того же столбца

С таким фреймом данных, rdd_2 = sc.parallelize([(0,10,223,"201601"), (0,10,83,"2016032"),(1,20,None,"201602"),(1,20,3003,"201601"), (1,20,None,"201603"), (2,40, 2321,"201601"), (2,30, 10,"201602"),(2,61, None,"201601")]) df_data =...

15316 просмотров

python apache-spark pyspark apache-spark-sql pyspark-sql

11.02.2023

Приведение API pyspark Dataframe ('timestamp') не работает со строками меток времени

У меня есть данные, которые выглядят так: {"id":1,"createdAt":"2016-07-01T16:37:41-0400"} {"id":2,"createdAt":"2016-07-01T16:37:41-0700"} {"id":3,"createdAt":"2016-07-01T16:37:41-0400"} {"id":4,"createdAt":"2016-07-01T16:37:41-0700"}...

3999 просмотров

python apache-spark pyspark apache-spark-sql pyspark-sql

01.11.2022

имя программы pyspark 'искра' не определено

Ниже программа выдает ошибку с именем "искра" не определено. Traceback (most recent call last): File "pgm_latest.py", line 232, in <module> sconf =SparkConf().set(spark.dynamicAllocation.enabled,true)...

9439 просмотров

pyspark pyspark-sql

08.04.2023

Как вставить значение в пустой фрейм данных в искре

Я разрабатываю искровое приложение с использованием SPARK sql, одна из моих задач - выбрать значение из двух таблиц и вставить его в пустую таблицу, что является моим результатом. но для этого я экспериментирую с искрой для создания пустой таблицы, я...

9631 просмотров

pyspark apache-spark-sql pyspark-sql spark-dataframe

12.12.2022

преобразование кадра данных pyspark в помеченный точечный объект

df: [Row(split(value,,)=[u'21.0', u'1',u'2']),Row(split(value,,)=[u'22.0', u'3',u'4'])] как преобразовать каждую строку в df в объект LabeledPoint , который состоит из метки и функций, где первое значение — это метка, а остальные 2 — функции в...

3510 просмотров

python apache-spark pyspark apache-spark-mllib pyspark-sql

17.08.2023