Как сбросить дубликаты в Ваекс?

У меня есть записи от пользователей и сколько взаимодействий этот пользователь имел на моем веб-сайте ...

У меня 340 тыс. Строк и более 70 столбцов, и я хочу использовать Vaex, но у меня проблемы с выполнением простых вещей, например, с удалением дубликатов.

Может ли кто-нибудь помочь мне, как это сделать?

import pandas as pd

df = pd.DataFrame({'user': ['Bob', 'Bob', 'Alice', 'Alice', 'Alice', "Ralph", "Ralph"], 
                   'date': ['2013-12-05', '2014-02-05', '2013-11-07', '2014-04-22', '2014-04-30',  '2014-04-20', '2014-05-29'],
                   'interaction_num': ['1', '2', '1', '2', '3', '1','2']})

Я хочу получить тот же результат функции pandas.drop_duplicates (keep = last)

df.drop_duplicates('user', keep='last', inplace=True)

ожидаемый результат при использовании Vaex должен быть:

    user    date    interaction_num
1   Bob     2014-02-05  2
4   Alice   2014-04-30  3
6   Ralph   2014-05-29  2

person Leonardo Ferreira    schedule 22.08.2020    source источник


Ответы (1)


Повторяющийся вопрос

Кажется, что его пока нет, но в какой-то момент нам стоит ожидать появления этой функциональности.

Тем временем существует попытка создателя vaex

person radupm    schedule 27.02.2021