Разделить символы в именах столбцов на новые столбцы с логическими значениями в строках

Я пытаюсь разбить строки имен столбцов на отдельные столбцы, но проблема, с которой я сталкиваюсь, заключается в том, что строки имеют логические значения. Есть несколько сообщений, в которых столбцы разделяются строками в строках, но я не смог найти сообщений с логическими значениями.

Мой data.frame выглядит примерно так:

mydf <- data.frame (author = c("N1", "N2", "N3"),
Aa..Ab = c(T, T, F),
BB = c(T, F, T),
Ca...Cb = c(F, F, T))

Результат должен выглядеть примерно так

mydfnew <- data.frame (author = c("N1", "N2", "N3"),
 Aa = c(T, T, F),
 Ab = c(T, T, F),
 BB = c(T, F, T),
 Ca = c(F, F, T),
 Cb = c(F, F, T))

Я попытался настроить код, который разделяет столбцы и имена (Разделение символа в столбце и имени) следующим образом:

splitCol <- function(dataframe, splitVars=names(dataframe)){
  split.DF <- dataframe[,splitVars]
  keep.DF <- dataframe[, !names(dataframe) %in% c(splitVars)]

  X <- function(x)matrix(unlist(rep(x)), byrow=TRUE)

  newdf <- as.data.frame(do.call(cbind, suppressWarnings(lapply(split.DF, X))) )
  names(newdf) <- paste(rep(names(split.DF), each=2), c(".a", ".b"), sep="") 
  data.frame(keep.DF,newdf)
}

При звонке

splitCol(mydf) 

Я получаю сообщение об ошибке:

Ошибка в именах (newdf) ‹- paste (rep (names (split.DF), each = 2), c (". A ",: атрибут 'names' [8] должен иметь ту же длину, что и вектор [4])


person Rkook    schedule 12.06.2013    source источник
comment
Спасибо @dmartinez за редактирование.   -  person Rkook    schedule 12.06.2013


Ответы (3)


Вот подход с использованием replicate и Map

as.data.frame(Map(x = strsplit(names(mydf), '[.]+'), 
                  DATA = mydf, 
                  f = function(x,DATA){
                    setNames(replicate(length(x), DATA, simplify = FALSE),x  )}
             ))
##    author    Aa    Ab    BB    Ca    Cb
##  1     N1  TRUE  TRUE  TRUE FALSE FALSE
##  2     N2  TRUE  TRUE FALSE FALSE FALSE
##  3     N3 FALSE FALSE  TRUE  TRUE  TRUE
person mnel    schedule 12.06.2013
comment
Вау, это было очень быстро! Большое спасибо. Протестировал его на моем большом наборе данных и, похоже, работает так, как задумано. Я не знал ‹Map› и как им пользоваться. Спасибо за эту возможность обучения. - person Rkook; 12.06.2013

Ответ, который по сути представляет собой двухэтапную вариацию версии @ mnel:

splnames <- strsplit(names(mydf),"\\.+")
setNames(data.frame(rep(mydf,sapply(splnames,length))),unlist(splnames))

Результат:

  author    Aa    Ab    BB    Ca    Cb
1     N1  TRUE  TRUE  TRUE FALSE FALSE
2     N2  TRUE  TRUE FALSE FALSE FALSE
3     N3 FALSE FALSE  TRUE  TRUE  TRUE
person thelatemail    schedule 12.06.2013

Вот альтернатива, использующая пакет reshape2 и мой пакет splitstackshape. Основная идея состоит в том, чтобы получить «длинный» набор данных, которым гораздо проще манипулировать, чем широким - даже если конечная цель - создать широкий набор данных :)

## Load required packages
library(reshape2)
library(splitstackshape)

## Create a "long" version of your dataset
A <- melt(mydf, id.vars="author")
B <- concat.split.multiple(A, "variable", ".", "long")

## Use `dcast` to get the desired wide form
## Use `na.omit(B)` to get rid of the rows that have 
##   NA before doing the transformation
dcast(na.omit(B), author ~ variable, value.var="value")
#   author    Aa    BB    Ca    Ab    Cb
# 1     N1  TRUE  TRUE FALSE  TRUE FALSE
# 2     N2  TRUE FALSE FALSE  TRUE FALSE
# 3     N3 FALSE  TRUE  TRUE FALSE  TRUE
person A5C1D2H2I1M1N2O1R2T1    schedule 03.09.2013