Могу ли я выполнить выбор всех переменных подмножеств для модели пропорциональных рисков Кокса в R?

Я пытаюсь использовать функцию, похожую, если не на самом деле, на regsubsets в пакете jumps в программе R при выборе лучших моделей Cox Proportional Hazards для моих данных. Это возможно? и если да, то функция уже существует?


person marcellt    schedule 15.01.2013    source источник
comment
Вы должны сначала серьезно задаться вопросом, является ли это хорошей идеей.   -  person IRTFM    schedule 16.01.2013
comment
Какую процедуру выбора модели вы рекомендуете? Разве не уместно посмотреть, насколько близки конкурирующие модели, прежде чем я приму модель как лучшую?   -  person marcellt    schedule 16.01.2013
comment
Вы должны сначала подумать о науке, лежащей в основе исследования. Невозможно рекомендовать лучшую процедуру, если цели не ясны.   -  person IRTFM    schedule 16.01.2013
comment
Это не форум статистики, а форум программистов. Я ищу совета о том, существует ли эта функция, а не о том, должен ли я или могу ли оправдать ее использование.   -  person marcellt    schedule 16.01.2013
comment
Мои комментарии были призваны объяснить, почему я подозревал, что разработчики не желают отдавать такой механизм в руки людей, которые не знали, что им следует пользоваться с большой осторожностью. Я предлагаю вам поискать многолетние обсуждения в Rhelp Терри Терно, Фрэнка Харрелла и Томаса Ламли относительно пошаговых методов. Вот один из них: markmail.org/search/   -  person IRTFM    schedule 16.01.2013
comment
Я прочитал предоставленную вами ссылку, и все они кажутся очень критическими по отношению к выбору ступенчатой ​​​​переменной. Именно по этой причине я пытаюсь найти другой метод выбора переменных (все подмножества).   -  person marcellt    schedule 16.01.2013
comment
Насколько я знаю, нет. Вы думаете о чем-то вроде glmulti. Там есть хороший обзор регрессии подмножества. Если у вас маленький нет. кандидатов, вы можете использовать цикл для создания альтернативных моделей и сохранения интересующих результатов в data.frame, а затем отсортировать его. Как вы можете видеть, это становится довольно требовательным к вычислительным ресурсам даже для скромного числа предикторов. Возможно, вы захотите изучить способ параллельного выполнения такого цикла. Альтернативой является переписывание интенсивных частей регрессии на скомпилированном языке...   -  person dardisco    schedule 02.02.2013


Ответы (1)


Я предполагаю, что вы уже знакомы со следующим... Если вы используете AIC в качестве вашего критерия «топ-модели», то это было бы разумной отправной точкой:

library(survival)
data(colon)
c1 <- coxph(Surv(time=time, event=status) ~
     as.factor(extent) + age + sex, data=colon)
step(c1)

Будьте осторожны, если у вас есть пропущенные значения (NA). Конечно, может быть лучшая модель, которую не найти этим методом, но с небольшим количеством потенциальных предикторов вы вряд ли ее упустите. Предостережения, как указано выше (спасибо @DWin), об использовании численных методов, когда информированное мнение может быть более надежным.

person dardisco    schedule 02.02.2013