Вопросы по теме 'pyspark-dataframes'
Удаление дубликатов из фрейма данных в PySpark
Я возился с фреймами данных в pyspark 1.4 локально, и у меня проблемы с работой метода dropDuplicates . Он продолжает возвращать ошибку:
AttributeError: объект 'list' не имеет атрибута 'dropDuplicates'
Не совсем уверен, почему, поскольку я,...
114436 просмотров
schedule
20.06.2022
Как присоединиться к двум Spark DataFrame и управлять их общим столбцом?
У меня есть 2 DataFrame:
+--+-----------+
|id|some_string|
+--+-----------+
| a| foo|
| b| bar|
| c| egg|
| d| fog|
+--+-----------+
и это:
+--+-----------+
|id|some_string|
+--+-----------+
| a| hoi|
|...
80 просмотров
schedule
25.01.2024
Как я могу извлечь все экземпляры шаблона регулярного выражения в кадре данных PySpark?
У меня есть столбец StringType() в кадре данных PySpark. Я хочу извлечь все экземпляры шаблона регулярного выражения из этой строки и поместить их в новый столбец ArrayType(StringType())
Предположим, что шаблон регулярного выражения...
2888 просмотров
schedule
01.03.2024
PySpark: TypeError: объект 'str' не может быть вызван в операциях фрейма данных
Я читаю файлы из папки в цикле и создаю из них фреймы данных. Однако я получаю эту странную ошибку TypeError: 'str' object is not callable . Пожалуйста, найдите код здесь:
for yr in range (2014,2018):
cat_bank_yr =...
4868 просмотров
schedule
11.10.2022
Создание фрейма данных pyspark вручную
Я пытаюсь вручную создать фрейм данных pyspark с учетом определенных данных:
row_in=[(1566429545575348),(40.353977),(-111.701859)]
rdd=sc.parallelize(row_in)
schema = StructType([StructField("time_epocs", DecimalType(),...
62172 просмотров
schedule
12.01.2023
Обновление значений переменных в UDF Pyspark
Я хочу иметь функцию udf, которая проходит через столбец «Значения» и проверяет, составляет ли следующее значение 50% или более от текущего значения строки. Если он находится в пределах 50% процентов, я хочу включить значение «да», если нет, то я не...
160 просмотров
schedule
18.02.2022
Сохранение значений кратных столбцов в фрейме данных pyspark в новом столбце
Я импортирую данные из файла csv, где у меня есть столбцы Reading1 и Reading2, и сохраняю их в фреймворке pyspark. Моя цель - получить новое имя столбца Reading и его значение в виде массива, содержащего значения Reading1 и Reading2. Как мне...
60 просмотров
schedule
08.06.2022
Сравните две колонки разной длины
Я работаю с двумя фреймами данных pyspark, каждый из которых имеет один столбец. Один с 3 строками (ColumnA), а другой со 100 строками (ColumnB). Я хочу сравнить все строки столбца A с каждой отдельной строкой столбца B. (Мне нужно знать,...
210 просмотров
schedule
03.01.2024
AttributeError: объект 'NoneType' не имеет атрибута 'запись в Pyspark
Spark: 2.4.4 Pyspark
Я зарегистрировал временную таблицу и пытаюсь сохранить вывод в файл csv. но появляется ошибка: «AttributeError: объект 'NoneType' не имеет атрибута 'write'»
data.registerTempTable("data")
output = spark.sql("SELECT...
2500 просмотров
schedule
07.06.2023
Объедините два разных RDD с двумя разными наборами данных, но с одним и тем же ключом
RDD_1 содержит следующие строки:
(u'id2875421', 2, datetime.datetime(2016, 3, 14, 17, 24, 55), datetime.datetime(2016, 3, 14, 17, 32, 30), 1, -73.9821548461914, 40.76793670654297, -73.96463012695312, 40.765602111816406, u'N', 455)
RDD_2...
66 просмотров
schedule
01.08.2023
Добавить столбец с внутрипредметным днем взаимодействия с упорядоченным рангом в pyspark
У меня есть большой фреймворк pyspark, содержащий данные о взаимодействии с пользователем за многолетний период. Столбцов много, но три полезных для этого вопроса - userid , interaction_date и interaction_timestamp . Предположим, что для данного...
54 просмотров
schedule
20.05.2022
Добавить столбец с ближайшими значениями в PySpark Dataframe
У меня есть фреймворк PySpark (скажем, df ), который имеет два столбца ( Name и Score ). Ниже приведен пример фрейма данных:
+------+-----+
| Name|Score|
+------+-----+
| name1|11.23|
| name2|14.57|
| name3| 2.21|
| name4| 8.76|
|...
221 просмотров
schedule
02.10.2023
Группировка с условием when в Pyspark
Мой фрейм данных выглядит так
id |reg_date | txn_date|
+----------+----------+--------------------+
|1 |2019-01-06| 2019-02-15 12:51:15|
|1 |2019-01-06| 2019-03-29 13:15:27|
|1 |2019-01-06| 2019-06-01...
1239 просмотров
schedule
07.03.2024
Pyspark SQL: как создать новое значение, полученное из значения столбца и другого имени столбца?
Я пытаюсь получить новое значение, полученное из значения столбца плюс другое имя столбца.
Например, учитывая это:
+----+---+----+----+
|base| 1| 2| 3|
+----+---+----+----+
| 10| AA| aa| Aa|
| 20| BB| bb| Bb|
| 30| CC| cc| Cc|...
68 просмотров
schedule
07.04.2023
Как применить groupby и транспонировать в Pyspark?
У меня есть фрейм данных, как показано ниже
df = pd.DataFrame({
'subject_id':[1,1,1,1,2,2,2,2,3,3,4,4,4,4,4],
'readings' :...
673 просмотров
schedule
21.07.2023
Как оптимизировать процентную проверку и падение столбцов в большом фрейме данных pyspark?
У меня есть образец кадра данных pandas, как показано ниже. Но мои реальные данные 40 million rows and 5200 columns
df = pd.DataFrame({
'subject_id':[1,1,1,1,2,2,2,2,3,3,4,4,4,4,4],
'readings' :...
104 просмотров
schedule
20.07.2022
Pyspark Dataframe pivot и groupby count
Я работаю над фреймворком pyspark, который выглядит, как показано ниже
id
category
1
A
1
A
1
B
2
B
2
A
3
B
3
B
3
B
Я хочу разложить столбец категорий и...
294 просмотров
schedule
17.06.2023
Изменить все элементы в ArrayType
У меня есть DataFrame со столбцом ArrayType(StringType) :
+------------------------------------+
|colname |
+------------------------------------+
|[foo_XX_foo, bar_YY_bar] |
|[qwe_ZZ_rty, asd_AA_fgh,...
420 просмотров
schedule
31.12.2022
Как удалить столбцы, а не строки, используя эквивалент оси pandas в pyspark?
У меня есть фрейм данных искры, как показано ниже
df = pd.DataFrame({
'subject_id':[1,1,1,1,2,2,2,2,3,3,4,4,4,4,4],
'readings' :...
575 просмотров
schedule
10.01.2023
Как применить функцию к каждой строке в группе после groupby в pyspark?
У меня есть такие данные:
userID sessionID time
«» xxx 01.06.2019
"" xxx 02.06.2019
user1 xxx 2019-06-03
"" ггг 2019-06-04
user2 ггг 2019-06-05
"" ггг 2019-06-06
user3 ггг 2019-06-07
Я хочу:
userID sessionID time
user1...
80 просмотров
schedule
23.11.2022