У меня есть фрейм данных с категориальной переменной, содержащей списки строк с переменной длиной (это важно, потому что в противном случае этот вопрос был бы дубликатом this или this), например:
df <- data.frame(x = 1:5)
df$y <- list("A", c("A", "B"), "C", c("B", "D", "C"), "E")
df
x y 1 1 A 2 2 A, B 3 3 C 4 4 B, D, C 5 5 E
И желаемая форма - это фиктивная переменная для каждой уникальной строки, видимой в любом месте df$y
, то есть:
data.frame(x = 1:5, A = c(1,1,0,0,0), B = c(0,1,0,1,0), C = c(0,0,1,1,0), D = c(0,0,0,1,0), E = c(0,0,0,0,1))
x A B C D E 1 1 1 0 0 0 0 2 2 1 1 0 0 0 3 3 0 0 1 0 0 4 4 0 1 1 1 0 5 5 0 0 0 0 1
Этот наивный подход работает:
> uniqueStrings <- unique(unlist(df$y))
> n <- ncol(df)
> for (i in 1:length(uniqueStrings)) {
+ df[, n + i] <- sapply(df$y, function(x) ifelse(uniqueStrings[i] %in% x, 1, 0))
+ colnames(df)[n + i] <- uniqueStrings[i]
+ }
Однако это очень уродливо, лениво и медленно с большими фреймами данных.
Какие-либо предложения? Что-нибудь модное из tidyverse
?
ОБНОВЛЕНИЕ: у меня есть 3 разных подхода ниже. Я протестировал их с помощью system.time
на моем ноутбуке (Windows 7, 32 ГБ ОЗУ) на реальном наборе данных, состоящем из 1 млн строк, каждая строка содержит список длиной от 1 до 4 строк (из ~ 350 уникальных строк values), всего 200 МБ на диске. Таким образом, ожидаемым результатом является фрейм данных размером 1M x 350. Подходы tidyverse
(@Sotos) и base
(@ joel.wilson) заняли так много времени, что мне пришлось перезапустить R. Подход qdapTools
(@akrun), однако, сработал фантастически:
> system.time(res1 <- mtabulate(varsLists))
user system elapsed
47.05 10.27 116.82
Так что это подход, который я отмечу как принятый.
levels = unique(unlist(df$y))
вместоLETTERS[1:5]
? - person Sotos   schedule 16.01.2017