У меня есть данные, которые выглядят примерно так:
foo <- data.frame(userid = c("a","a","b","b","b"),
activity = factor(c("x","y","z","z","x")),
st=c(0, 20, 0, 10, 25), # start time
et=c(20, 30, 10, 25, 30)) # end time
и я хочу для каждого идентификатора пользователя преобразовывать данные об активности в пятиминутные интервалы времени. Результат будет выглядеть примерно так:
result <- data.frame(userid = c("a", "b"),
x1 = c("x", "z"),
x2 = c("x", "z"),
x3 = c("x", "z"),
x4 = c("x", "z"),
x5 = c("y", "z"),
x6 = c("y", "x"))
Следующий подход работает, но он довольно громоздкий и очень медленный. Это занимает около 15 минут на моем наборе данных скромного размера.
library(dplyr)
library(tidyr)
lvls <- levels(foo$activity)
time_bin <- function(st, et, act) {
bins <- seq(0, 30, by=5)
tb <- as.integer(bins>=st & bins<et)*as.integer(act)
tb[tb>0] <- lvls[tb]
data.frame(tb=tb, bins=bins)
}
new_foo <-
foo %>%
rowwise() %>%
do(data.frame(., time_bin(.$st, .$et, .$activity))) %>%
select(-(activity:et)) %>%
group_by(userid) %>%
subset(tb>0) %>%
spread(bins, tb)
Есть ли более быстрый или удобный способ сделать это?