Вопросы по теме 'pyspark-sql'
Ошибка Pyspark при запросе cassandra для преобразования в кадры данных
Я получаю следующую ошибку при выполнении команды:
user = sc.cassandraTable("DB NAME", "TABLE NAME").toDF()
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File...
1280 просмотров
schedule
27.06.2023
Выбор пустых значений массива из Spark DataFrame
Учитывая DataFrame со следующими строками:
rows = [
Row(col1='abc', col2=[8], col3=[18], col4=[16]),
Row(col2='def', col2=[18], col3=[18], col4=[]),
Row(col3='ghi', col2=[], col3=[], col4=[])]
Я хотел бы удалить строки с пустым...
4091 просмотров
schedule
08.07.2023
py4j.protocol.Py4JJavaError при выборе вложенного столбца в кадре данных с использованием инструкции select
Я пытаюсь выполнить простую задачу в искровом фрейме данных (python), который создает новый фрейм данных, выбирая определенный столбец и вложенные столбцы из другого фрейма данных, например:
df.printSchema()
root
|-- time_stamp: long (nullable =...
1875 просмотров
schedule
15.10.2022
как хранить сгруппированные данные в json в pyspark
Я новичок в писпарке
У меня есть набор данных, который выглядит (просто снимок нескольких столбцов)
Я хочу сгруппировать свои данные по ключу. Мой ключ
CONCAT(a.div_nbr,a.cust_nbr)
Моя конечная цель - преобразовать данные в JSON,...
3351 просмотров
schedule
03.01.2024
Есть ли способ сгенерировать номер строки без преобразования кадра данных в rdd в pyspark 1.3.1?
Я использую pyspark 1.3.1, мне нужно создать уникальный идентификатор/номер для каждой строки в кадре данных.
Поскольку оконные функции недоступны в версии Pyspark: 1.3.1, я не могу использовать функцию rownumber.
Как я могу ввести номер строки...
48 просмотров
schedule
09.06.2023
Pyspark: вычисление суммы двух соответствующих столбцов на основе условий двух столбцов в двух СДР.
У меня есть два RDD с одинаковыми столбцами: rdd1 :-
+-----------------+
|mid|uid|frequency|
+-----------------+
| m1| u1| 1|
| m1| u2| 1|
| m2| u1| 2|
+-----------------+
рдд2 :-
+-----------------+...
912 просмотров
schedule
27.11.2022
Pyspark работает медленнее, чем Hive
У меня есть 3 фрейма данных df1, df2 и df3. Каждый фрейм данных содержит примерно 3 миллиона строк. df1 и df3 имеет ок. 8 столбцов. df2 имеет только 3 столбца. (размер исходного текстового файла df1 составляет около 600 МБ)
Выполняемые...
410 просмотров
schedule
21.07.2022
Применение функции окна для вычисления различий в pySpark
Я использую pySpark и настроил свой фрейм данных с двумя столбцами, представляющими дневную цену актива следующим образом:
ind = sc.parallelize(range(1,5))
prices = sc.parallelize([33.3,31.1,51.2,21.3])
data = ind.zip(prices)
df =...
51556 просмотров
schedule
13.12.2021
Случай, когда оператор с предложением IN в Pyspark
Я новичок в программировании на Spark, и у меня есть сценарий для присвоения значения, когда набор значений появляется в моем вводе. Ниже приведен традиционный код SQL, который я бы использовал для выполнения своей задачи. То же самое нужно сделать...
13945 просмотров
schedule
21.10.2023
Извлечь номер дня недели из строкового столбца (отметка даты и времени) в Spark API
Я новичок в Spark API. Я пытаюсь извлечь номер дня недели из столбца, например col_date (с отметкой даты и времени, например, «13AUG15: 09: 40: 15»), которая является строкой, и добавить еще один столбец в качестве дня недели (целое число). Я не...
7555 просмотров
schedule
27.01.2023
Сортировка RDD после группировки и суммирования
Я пытаюсь провести некоторый анализ некоторых данных о визге. Данные структурированы следующим образом:
>>> yelp_df.printSchema()
root
|-- business_id: string (nullable = true)
|-- cool: integer (nullable = true)
|-- date: string...
830 просмотров
schedule
27.11.2022
PySpark DataFrame не может удалить дубликаты
Здравствуйте, я создал фрейм данных искры, и я пытаюсь удалить дубликаты:
df.drop_duplicates(subset='id')
Я получаю следующую ошибку:
Py4JError: An error occurred while calling z:org.apache.spark.api.python.PythonUtils.toSeq. Trace:...
4853 просмотров
schedule
13.07.2023
Групповые транзакции Python Spark во вложенную схему
Я хочу сгруппировать транзакции, хранящиеся в pyspark.sql.dataframe.DataFrame " ddf ", по столбцу " key ", который указывает источник транзакции (в данном случае идентификатор клиента).
Группировка — довольно затратный процесс, поэтому я хочу...
436 просмотров
schedule
29.01.2023
Итерация / зацикливание паркетных файлов Spark в сценарии приводит к ошибке / накоплению памяти (с использованием запросов Spark SQL)
Я пытался выяснить, как предотвратить сбой Spark из-за проблем с памятью, когда я перебираю файлы паркета и несколько функций постобработки. Извините за поток текста, но это не совсем одна конкретная ошибка (я использую PySpark). Приносим извинения,...
2883 просмотров
schedule
15.07.2022
Spark несколько условий присоединиться
Я использую spark sql для объединения трех таблиц, однако получаю сообщение об ошибке с несколькими условиями столбца.
test_table = (T1.join(T2,T1.dtm == T2.kids_dtm, "inner")
.join(T3, T3.kids_dtm == T1.dtm
and...
8332 просмотров
schedule
01.08.2022
Заполните нулевые значения столбца фрейма данных Pyspark средним значением из того же столбца
С таким фреймом данных,
rdd_2 = sc.parallelize([(0,10,223,"201601"), (0,10,83,"2016032"),(1,20,None,"201602"),(1,20,3003,"201601"), (1,20,None,"201603"), (2,40, 2321,"201601"), (2,30, 10,"201602"),(2,61, None,"201601")])
df_data =...
15316 просмотров
schedule
11.02.2023
Приведение API pyspark Dataframe ('timestamp') не работает со строками меток времени
У меня есть данные, которые выглядят так:
{"id":1,"createdAt":"2016-07-01T16:37:41-0400"}
{"id":2,"createdAt":"2016-07-01T16:37:41-0700"}
{"id":3,"createdAt":"2016-07-01T16:37:41-0400"}
{"id":4,"createdAt":"2016-07-01T16:37:41-0700"}...
3999 просмотров
schedule
01.11.2022
имя программы pyspark 'искра' не определено
Ниже программа выдает ошибку с именем "искра" не определено.
Traceback (most recent call last):
File "pgm_latest.py", line 232, in <module>
sconf =SparkConf().set(spark.dynamicAllocation.enabled,true)...
9439 просмотров
schedule
08.04.2023
Как вставить значение в пустой фрейм данных в искре
Я разрабатываю искровое приложение с использованием SPARK sql, одна из моих задач - выбрать значение из двух таблиц и вставить его в пустую таблицу, что является моим результатом. но для этого я экспериментирую с искрой для создания пустой таблицы, я...
9631 просмотров
schedule
12.12.2022
преобразование кадра данных pyspark в помеченный точечный объект
df:
[Row(split(value,,)=[u'21.0', u'1',u'2']),Row(split(value,,)=[u'22.0', u'3',u'4'])]
как преобразовать каждую строку в df в объект LabeledPoint , который состоит из метки и функций, где первое значение — это метка, а остальные 2 — функции в...
3510 просмотров
schedule
17.08.2023