В SparkR у меня есть DataFrame data
. Он содержит time
, game
и id
.
head(data)
затем дает ID = 1 4 1 1 215 985 ..., game
= 1 5 1 10 и время 2012-2-1, 2013-9-9, ... Теперь game
содержит тип игры, который представляет собой числа от 1 до 10.
Для данного типа игры я хочу найти минимальное время, то есть первый раз, когда эта игра была сыграна. Для типа игры 1 я делаю это
data1 <- filter(data, data$game == 1)
Эти новые данные содержат все данные для типа игры 1. Чтобы найти минимальное время, я делаю это
g <- groupBy(data1, game$time)
first(arrange(g, desc(g$time)))
но это не может работать в sparkR. В нем говорится, что «объект типа S4 не является подмножеством».
Игра 1 была сыграна 02.01.2012, 04.05.2013, 04.01.2011,... Я хочу найти минимальное время.
groupBy
для использования функции агрегирования. - person zero323   schedule 15.09.2015