strsplit по строке и распределите результаты по столбцу в data.frame

Итак, у меня есть data.frame

dat = data.frame(x = c('Sir Lancelot the Brave', 'King Arthur',  
                       'The Black Knight', 'The Rabbit'), stringsAsFactors=F)

> dat
                       x
1 Sir Lancelot the Brave
2            King Arthur
3       The Black Knight
4             The Rabbit

И я хочу преобразовать его в фрейм данных

> dat2
                       x    1            2       3      4
1 Sir Lancelot the Brave    Sir   Lancelot     the  Brave
2            King Arthur    King    Arthur
3       The Black Knight    The      Black  Knight 
4             The Rabbit    The     Rabbit

strsplit возвращает данные в виде списка

sbt <- strsplit(dat$x, " ")
> sbt
[[1]]
[1] "Sir"      "Lancelot" "the"      "Brave"   

[[2]]
[1] "King"   "Arthur"

[[3]]
[1] "The"    "Black"  "Knight"

[[4]]
[1] "The"    "Rabbit"

и as.data.table не создает значения NULL там, где должно, а повторяет значения

> t(as.data.table(sbt))
   [,1]   [,2]       [,3]     [,4]    
V1 "Sir"  "Lancelot" "the"    "Brave" 
V2 "King" "Arthur"   "King"   "Arthur"
V3 "The"  "Black"    "Knight" "The"   
V4 "The"  "Rabbit"   "The"    "Rabbit"

Думаю, мне действительно нужен аргумент для as.data.table(x, repeat=FALSE), иначе как я могу выполнить эту работу?


person dmvianna    schedule 18.10.2012    source источник
comment
Вы используете data.frames или data.tables?   -  person mnel    schedule 18.10.2012
comment
@mnel: все, что делает работу. as.data.frame выдает ошибку, когда я пытаюсь принудить sbt, поэтому вместо этого я попробовал as.data.table.   -  person dmvianna    schedule 18.10.2012


Ответы (4)


Вот один вариант. Единственная сложность заключается в том, что вам нужно сначала преобразовать каждый вектор в data.frame с одной строкой, поскольку data.frames — это то, что ожидает rbind.fill().

library(plyr)
rbind.fill(lapply(sbt, function(X) data.frame(t(X))))
#     X1       X2     X3    X4
# 1  Sir Lancelot    the Brave
# 2 King   Arthur   <NA>  <NA>
# 3  The    Black Knight  <NA>
# 4  The   Rabbit   <NA>  <NA>

Однако я склонен просто использовать базу R, например:

n <- max(sapply(sbt, length))
l <- lapply(sbt, function(X) c(X, rep(NA, n - length(X))))
data.frame(t(do.call(cbind, l)))
#     X1       X2     X3    X4
# 1  Sir Lancelot    the Brave
# 2 King   Arthur   <NA>  <NA>
# 3  The    Black Knight  <NA>
# 4  The   Rabbit   <NA>  <NA>
person Josh O'Brien    schedule 18.10.2012

Я знаю, что это старый вопрос, но я решил поделиться двумя дополнительными вариантами.

Опция 1

concat.split из моего пакета "splitstackshape" был разработан именно для этого типа вещей.

library(splitstackshape)
concat.split(dat, "x", " ")
#                        x  x_1      x_2    x_3   x_4
# 1 Sir Lancelot the Brave  Sir Lancelot    the Brave
# 2            King Arthur King   Arthur             
# 3       The Black Knight  The    Black Knight      
# 4             The Rabbit  The   Rabbit        

Вариант 2

data.table недавно (начиная с версии 1.8.11, я полагаю) имел некоторые дополнения к своему арсеналу, особенно в этом случае dcast.data.table. Чтобы использовать его, unlist разделите данные (как это было сделано в ответе @mnel), создайте переменную «время», используя .N (сколько новых значений в строке), и используйте dcast.data.table для преобразования данных в форму, которую вы ищете.

library(data.table)
library(reshape2)
packageVersion("data.table")
# [1] ‘1.8.11’

DT <- data.table(dat)
S1 <- DT[, list(X = unlist(strsplit(x, " "))), by = seq_len(nrow(DT))]
S1[, Time := sequence(.N), by = seq_len]
dcast.data.table(S1, seq_len ~ Time, value.var="X")
#    seq_len    1        2      3     4
# 1:       1  Sir Lancelot    the Brave
# 2:       2 King   Arthur     NA    NA
# 3:       3  The    Black Knight    NA
# 4:       4  The   Rabbit     NA    NA
person A5C1D2H2I1M1N2O1R2T1    schedule 02.11.2013

Используя data.table, как кажется, вы пытаетесь его использовать.

library(data.table)
DT <- data.table(dat)
DTB <- DT[, list(y = unlist(strsplit(x, ' '))), by = x]

new <- rep(NA_character_,  DTB[,.N,by =x][which.max(N), N])
names(new) <- paste0('V', seq_along(new))
DTB[,{.new <- new 
      .new[seq_len(.N)] <- y 
       as.list(.new)} ,by= x]

Или используйте reshape2 dcast для изменения формы

library(reshape2)

dcast(DTB[,list(id = seq_len(.N),y),by= x ], x ~id, value.var = 'y')
person mnel    schedule 18.10.2012

Вот хороший и простой подход с tidyr.

library(tidyr)

ncol <- max(sapply(dat, length))

dat %>%
  separate(x, paste0("V", seq(1,ncol)))

Примечание. Вы получите предупреждение, однако в основном оно сообщает вам, что separate дополняет данные NA. Так что можете игнорировать предупреждение.

person Jacob H    schedule 06.06.2016