Я знаю, что эта тема уже опубликована, но я до сих пор не понимаю функцию Windows в pyspark. Я просто хочу сделать это на кадре данных pyspsark: data.rolling(5).agg('sum')
-> это в Pandas.
Я хочу это в pyspark. Не нужно группировать или упорядочивать, просто сдвиньте окно по столбцу и вычислите сумму (или мою собственную функцию).
Пример :
df = pd.DataFrame({'A': [1,1,2,2,1,2],
'B': [2,2,3,4,2,1]})
print(df)
A B
0 1 2
1 1 2
2 2 3
3 2 4
4 1 2
5 2 1
Результат :
print(df.rolling(3).agg('sum'))
A B
0 NaN NaN
1 NaN NaN
2 4.0 7.0
3 5.0 9.0
4 5.0 9.0
5 5.0 7.0
Спасибо