Как предварительно вычислить foldid с четными наблюдениями за раз для glmnet

Согласно виньету glmnet, foldid можно настроить следующим образом:

foldid=sample(1:10,size=length(y),replace=TRUE)

Однако, если вы посмотрите на количество наблюдений в каждой из складок:

> table(foldid)
foldid
 1  2  3  4  5  6  7  8  9 10 
10 12  8  7 12 12  8  7 14 10

Распределение не очень равномерное. Я получаю огромные вариации в cvm/lambda.min каждый раз, когда запускаю cv.glmnet с foldid, предварительно вычисленным описанным выше методом (на моих собственных наборах данных; n‹30), и хочу попробовать foldid с более равномерным распределением наблюдений. Может ли кто-нибудь предложить способ (код) сделать это?

r glmnet cross-validation

fumikos 30.07.2015 источник

Ответы (1)

arrow_upward
4
arrow_downward

Не берите в голову. Ответ найден в руководстве по glmnet.

(n = 100)
> foldid=sample(rep(seq(10),length=n))
> table(foldid)
foldid
 1  2  3  4  5  6  7  8  9 10 
10 10 10 10 10 10 10 10 10 10

Все складки имеют одинаковое количество наблюдений.

fumikos 30.07.2015

comment

FWIW, cvTools также предоставляет некоторые функции для создания складок. - Sycorax; 31.07.2015

comment

Примите свой собственный ответ через 2 дня, если это был правильный ответ на ваш вопрос. - gideon; 31.07.2015

Как предварительно вычислить foldid с четными наблюдениями за раз для glmnet

Ответы (1)

Вопросы по теме