У меня есть DataFrame X в sparkR. X содержит столбец с идентификатором = 1 2 3 1 2 3 9 ... и счет для каждой записи: счет = 1241 233 20100 ....
Таким образом, найти все баллы для ID
s=filter(X, X$ID==1)
и тогда мы получаем все оценки для ID 1, которые мы можем взять в сумме.
Я хочу знать число ID = 1 в X, поэтому я использую функцию «счетчик» в SparkR.
count(s)
но это занимает очень много времени, чтобы вычислить. Есть лучший способ сделать это?
Предполагая, что мы организовали или отсортировали X так, что ID = 1 1 1 2 3 3 3 4 ..... тогда, возможно, есть лучшая альтернатива, чтобы не делать count(s) .