У меня есть большой фреймворк pyspark, содержащий данные о взаимодействии с пользователем за многолетний период. Столбцов много, но три полезных для этого вопроса - userid
, interaction_date
и interaction_timestamp
. Предположим, что для данного пользователя в таблице есть несколько записей.
Мне нужно написать функцию для добавления столбца, который будет указывать количество дней до последнего наблюдаемого взаимодействия для данного клиента в таблице. Например, для таблицы ввода
Я хотел бы добавить столбец, который отсчитывается от даты самого последнего взаимодействия для этого пользователя (например, дата последнего взаимодействия - 1, дата следующего предыдущего взаимодействия - 2 и т. Д.):
Может ли кто-нибудь подвести меня к правильному пути?