У меня есть записи от пользователей и сколько взаимодействий этот пользователь имел на моем веб-сайте ...
У меня 340 тыс. Строк и более 70 столбцов, и я хочу использовать Vaex, но у меня проблемы с выполнением простых вещей, например, с удалением дубликатов.
Может ли кто-нибудь помочь мне, как это сделать?
import pandas as pd
df = pd.DataFrame({'user': ['Bob', 'Bob', 'Alice', 'Alice', 'Alice', "Ralph", "Ralph"],
'date': ['2013-12-05', '2014-02-05', '2013-11-07', '2014-04-22', '2014-04-30', '2014-04-20', '2014-05-29'],
'interaction_num': ['1', '2', '1', '2', '3', '1','2']})
Я хочу получить тот же результат функции pandas.drop_duplicates (keep = last)
df.drop_duplicates('user', keep='last', inplace=True)
ожидаемый результат при использовании Vaex должен быть:
user date interaction_num
1 Bob 2014-02-05 2
4 Alice 2014-04-30 3
6 Ralph 2014-05-29 2