Я был бы очень признателен за помощь в этом. Я хотел бы оценить коэффициенты и 95% ДИ для glm, который применяется к обследованию домохозяйств с 2 уровнями (определяемыми дд и чч.число1). Я только недавно наткнулся на пакет опрос.
Я следил за примерами в виньетке для 1) настройки набора данных для учета методов выборки - с помощью svydesign 2) настройки glm с помощью команды svyglm. Для примеров наборов данных:
library(survey)data(api)head(apiclus1)dclus1 <- svydesign(id = ~dnum, weights = ~pw, data = apiclus1)logitmodel <-svyglm(I(sch.wide=="Yes")~awards+comp.imp+enroll+target+hsg+pct.resp+mobility+ell+meals, design=dclus1, family=quasibinomial())summary(logitmodel)
Добавление большого количества переменных выглядит нормально, поэтому я уверен, что пакет работает с хорошим набором данных.
Когда я делаю то же самое со своим набором данных, стандартные ошибки возвращаются с «Inf», если добавляются 3 или 4 переменные, и я не могу понять, почему. Кажется, что это более распространено с факторами. Мне жаль, что я не смог воспроизвести ошибку с другими примерами, но набор данных может быть скачивается здесь.
Итак, используя этот набор данных:
load("balo2_7March17.Rdat")
dclus1 <- svydesign(id=~dd+hh.num1, weights=~chweight, data = balo2)
glm1 <- svyglm(out.penta ~ factor(MN18c) + windex5 + age.y,
design=dclus1, family=quasibinomial())
summary(glm1)
Если MN18c является числовым, то выдаются стандартные ошибки, если это множитель (а так и должно быть), стандартными ошибками являются Inf. Не зная, что еще делать, мне нужно попробовать анализ в STATA. Я видел некоторые комментарии о том, что ошибки могут возникнуть при применении к «плохому» набору данных, но что включает в себя «плохой»?