PCA на транспонированных данных

Я использую R для анализа PCA. Все работало нормально, пока мне не пришло в голову, что я должен иметь дело с транспонированием моего набора данных. Однако, когда я попытался сделать PCA на транспонированном наборе данных, я не смог заставить его работать!

> sum(is.na(data_t))
[1] 1367
> dim(data_t)
[1]  599 9505
> data_t[1:4,1:4]
                             2'-PDE    7A5      A1BG     A2M
TCGA.A1.A0SD.01A.11R.A115.07  0.0153750 2.4105 0.9493333 0.24200
TCGA.A1.A0SE.01A.11R.A084.07  0.4669375 0.3635 0.2798333 1.03850
TCGA.A1.A0SH.01A.11R.A084.07 -0.0295625 1.8550 0.7486667 1.16050
TCGA.A1.A0SJ.01A.11R.A084.07  0.7919375 1.4080 0.7500000 1.67775

> pca2<-princomp(~.,data=data_t, na.action=na.omit)
 Error in `[.data.frame`(mf, , x) : undefined columns selected

> pca2<-princomp(data_t, na.action=na.omit)
 Error in princomp.default(data_t, na.action = na.omit) : 
  'princomp' can only be used with more units than variables

Оказывается, вы не можете использовать princomp, если у вас больше переменных, чем единиц. Но вы можете использовать prcomp (см. princomp' можно использовать только с большим количеством единиц, чем переменных), но я все еще получаю ошибки!

> pca2<-prcomp(data_t,na.action=na.omit)
 Error in svd(x, nu = 0) : infinite or missing values in 'x'

> pca2<-prcomp(~ ., data=data_t, na.action=na.omit, scale=TRUE)
 Error in `[.data.frame`(mf, , x) : undefined columns selected

r pca
person bdeonovic    schedule 14.01.2013    source источник


Ответы (2)


У меня такая же проблема. Для меня это сработало, когда я присвоил имена столбцов (кроме числовых) моему data.frame. Например, когда colnames(mydf) было (1,2,3,4,5), я получил эту ошибку:

Error in [.data.frame(mf, , x) : undefined columns selected

Я сделал следующее:

colnames(mydf) <- paste("var", 1:5, sep="")

а затем запустил функцию princomp:

mypca <- princom(~. , data=myrdf, cor=F, na.action=na.exclude)

и не было проблем.

person MilloMarinE    schedule 18.05.2018

Похоже, R не любит, когда отсутствуют данные, и вы пытаетесь использовать формулу со всеми переменными. Итак, это сработало:

pca2<-prcomp(na.omit(data_t), scale=TRUE)

конечно, это опускает те столбцы с отсутствующими данными.

person bdeonovic    schedule 14.01.2013