Я моделирую набор данных для абитуриентов с помощью PROC LOGISTIC в SAS (9.2). Целевая переменная - «Зарегистрирован да / нет», и я моделирую ряд из 13 переменных (сочетание индикатора, непрерывного и класса), включая: количество поданных заявок, количество посещенных мероприятий, возраст кандидата и т. Д.
Я использую 50% всего набора данных для обучения модели, что дает мне размер выборки (для обучения) чуть менее 15 000 наблюдений.
Когда я запускаю PROC LOGISTIC, в выходных данных сообщается, что большинство переменных очень значимы на уровне <.0001.
Статистика «Проверка глобальной нулевой гипотезы: БЕТА = 0» также сообщает, что модель хороша при <0,0001, а таблица статистики ассоциации сообщает, что высокий процент (90% +) предсказанных вероятностей совпадают.
Все это кажется отличным, пока я не перейду к статистике отклонений для Goodness of Fit. Тесты Pearson, Deviance и Hossmer / Lemeshow также сообщают о значении Pr> ChiSq <0,0001. Если я интерпретирую это правильно (имея в виду Пола Эллисона), этот уровень значимости означает, что модель должна быть отклонена на основании плохого соответствия.
Я попытался использовать STEPWISE для уменьшения модели, но это привело только к отклонению одного фактора, и на статистику GOF это не повлияло.
Подозревая мультиколлинеарность, я попытался смоделировать только отдельные эффекты для зависимой переменной, но все еще получаю аналогичные результаты - высокая значимость p-значений оценки параметра, но также высокая значимость в тестах GOF ...
Что-то принципиально не так с моей моделью - или я неверно интерпретирую тесты GOF в данных обстоятельствах? Кто-нибудь может посоветовать, что мне нужно исследовать?
Код, который я использовал, только для одного эффекта, но он дает те же проблемные результаты, что и для модели, включая все факторы:
/*Applicant_Factors_TRAIN: Single Factor*/
proc logistic DATA=Applicant_Factors_TRAIN;
MODEL Applicant_Enrolled(EVENT='1')= Total_campus_visits/ AGGREGATE SCALE = NONE LACKFIT RSQ;
run;
Результат ниже: