Вопросы по теме 'pyspark-dataframes'

Удаление дубликатов из фрейма данных в PySpark
Я возился с фреймами данных в pyspark 1.4 локально, и у меня проблемы с работой метода dropDuplicates . Он продолжает возвращать ошибку: AttributeError: объект 'list' не имеет атрибута 'dropDuplicates' Не совсем уверен, почему, поскольку я,...
114436 просмотров

Как присоединиться к двум Spark DataFrame и управлять их общим столбцом?
У меня есть 2 DataFrame: +--+-----------+ |id|some_string| +--+-----------+ | a| foo| | b| bar| | c| egg| | d| fog| +--+-----------+ и это: +--+-----------+ |id|some_string| +--+-----------+ | a| hoi| |...
80 просмотров
schedule 25.01.2024

Как я могу извлечь все экземпляры шаблона регулярного выражения в кадре данных PySpark?
У меня есть столбец StringType() в кадре данных PySpark. Я хочу извлечь все экземпляры шаблона регулярного выражения из этой строки и поместить их в новый столбец ArrayType(StringType()) Предположим, что шаблон регулярного выражения...
2888 просмотров

PySpark: TypeError: объект 'str' не может быть вызван в операциях фрейма данных
Я читаю файлы из папки в цикле и создаю из них фреймы данных. Однако я получаю эту странную ошибку TypeError: 'str' object is not callable . Пожалуйста, найдите код здесь: for yr in range (2014,2018): cat_bank_yr =...
4868 просмотров
schedule 11.10.2022

Создание фрейма данных pyspark вручную
Я пытаюсь вручную создать фрейм данных pyspark с учетом определенных данных: row_in=[(1566429545575348),(40.353977),(-111.701859)] rdd=sc.parallelize(row_in) schema = StructType([StructField("time_epocs", DecimalType(),...
62172 просмотров
schedule 12.01.2023

Обновление значений переменных в UDF Pyspark
Я хочу иметь функцию udf, которая проходит через столбец «Значения» и проверяет, составляет ли следующее значение 50% или более от текущего значения строки. Если он находится в пределах 50% процентов, я хочу включить значение «да», если нет, то я не...
160 просмотров

Сохранение значений кратных столбцов в фрейме данных pyspark в новом столбце
Я импортирую данные из файла csv, где у меня есть столбцы Reading1 и Reading2, и сохраняю их в фреймворке pyspark. Моя цель - получить новое имя столбца Reading и его значение в виде массива, содержащего значения Reading1 и Reading2. Как мне...
60 просмотров
schedule 08.06.2022

Сравните две колонки разной длины
Я работаю с двумя фреймами данных pyspark, каждый из которых имеет один столбец. Один с 3 строками (ColumnA), а другой со 100 строками (ColumnB). Я хочу сравнить все строки столбца A с каждой отдельной строкой столбца B. (Мне нужно знать,...
210 просмотров
schedule 03.01.2024

AttributeError: объект 'NoneType' не имеет атрибута 'запись в Pyspark
Spark: 2.4.4 Pyspark Я зарегистрировал временную таблицу и пытаюсь сохранить вывод в файл csv. но появляется ошибка: «AttributeError: объект 'NoneType' не имеет атрибута 'write'» data.registerTempTable("data") output = spark.sql("SELECT...
2500 просмотров

Объедините два разных RDD с двумя разными наборами данных, но с одним и тем же ключом
RDD_1 содержит следующие строки: (u'id2875421', 2, datetime.datetime(2016, 3, 14, 17, 24, 55), datetime.datetime(2016, 3, 14, 17, 32, 30), 1, -73.9821548461914, 40.76793670654297, -73.96463012695312, 40.765602111816406, u'N', 455) RDD_2...
66 просмотров
schedule 01.08.2023

Добавить столбец с внутрипредметным днем ​​взаимодействия с упорядоченным рангом в pyspark
У меня есть большой фреймворк pyspark, содержащий данные о взаимодействии с пользователем за многолетний период. Столбцов много, но три полезных для этого вопроса - userid , interaction_date и interaction_timestamp . Предположим, что для данного...
54 просмотров
schedule 20.05.2022

Добавить столбец с ближайшими значениями в PySpark Dataframe
У меня есть фреймворк PySpark (скажем, df ), который имеет два столбца ( Name и Score ). Ниже приведен пример фрейма данных: +------+-----+ | Name|Score| +------+-----+ | name1|11.23| | name2|14.57| | name3| 2.21| | name4| 8.76| |...
221 просмотров

Группировка с условием when в Pyspark
Мой фрейм данных выглядит так id |reg_date | txn_date| +----------+----------+--------------------+ |1 |2019-01-06| 2019-02-15 12:51:15| |1 |2019-01-06| 2019-03-29 13:15:27| |1 |2019-01-06| 2019-06-01...
1239 просмотров
schedule 07.03.2024

Pyspark SQL: как создать новое значение, полученное из значения столбца и другого имени столбца?
Я пытаюсь получить новое значение, полученное из значения столбца плюс другое имя столбца. Например, учитывая это: +----+---+----+----+ |base| 1| 2| 3| +----+---+----+----+ | 10| AA| aa| Aa| | 20| BB| bb| Bb| | 30| CC| cc| Cc|...
68 просмотров
schedule 07.04.2023

Как применить groupby и транспонировать в Pyspark?
У меня есть фрейм данных, как показано ниже df = pd.DataFrame({ 'subject_id':[1,1,1,1,2,2,2,2,3,3,4,4,4,4,4], 'readings' :...
673 просмотров

Как оптимизировать процентную проверку и падение столбцов в большом фрейме данных pyspark?
У меня есть образец кадра данных pandas, как показано ниже. Но мои реальные данные 40 million rows and 5200 columns df = pd.DataFrame({ 'subject_id':[1,1,1,1,2,2,2,2,3,3,4,4,4,4,4], 'readings' :...
104 просмотров

Pyspark Dataframe pivot и groupby count
Я работаю над фреймворком pyspark, который выглядит, как показано ниже id category 1 A 1 A 1 B 2 B 2 A 3 B 3 B 3 B Я хочу разложить столбец категорий и...
294 просмотров
schedule 17.06.2023

Изменить все элементы в ArrayType
У меня есть DataFrame со столбцом ArrayType(StringType) : +------------------------------------+ |colname | +------------------------------------+ |[foo_XX_foo, bar_YY_bar] | |[qwe_ZZ_rty, asd_AA_fgh,...
420 просмотров

Как удалить столбцы, а не строки, используя эквивалент оси pandas в pyspark?
У меня есть фрейм данных искры, как показано ниже df = pd.DataFrame({ 'subject_id':[1,1,1,1,2,2,2,2,3,3,4,4,4,4,4], 'readings' :...
575 просмотров

Как применить функцию к каждой строке в группе после groupby в pyspark?
У меня есть такие данные: userID sessionID time «» xxx 01.06.2019 "" xxx 02.06.2019 user1 xxx 2019-06-03 "" ггг 2019-06-04 user2 ггг 2019-06-05 "" ггг 2019-06-06 user3 ггг 2019-06-07 Я хочу: userID sessionID time user1...
80 просмотров