Анализ модели IN R (логистическая регрессия)

У меня есть файл данных (1 миллион строк), который имеет одну конечную переменную как статус (да / нет) с тремя непрерывными переменными и 5 номинальными переменными (5 категорий в каждой переменной). Я хочу предсказать результат, то есть статус. Я хотел знать, какой тип анализа подходит для построения модели. Я видел логит, пробит, логистическую регрессию. Я не понимаю, с чего начать, и анализирую переменные, которые, скорее всего, полезны для анализа.

файл данных: пол, регион, возраст, компания, специальность, должность, диагноз, лаборатории, заказы, статус

М, запад, 41, ПА, ФПК, Ассистент, код18,27,3, да

М, Юго-Западная, 65, CV, ФПК, Рабочий, код18,69,11, нет

М, Юг, 27, ДВ, ИМК, Ассистент, инвалид, 62,13, нет

М, Юго-запад, 18, CV, IMC, Рабочий, code8,6,1, да

PS: Используя язык R. Любая помощь будет принята с благодарностью! Спасибо!


person Malay Revanth    schedule 05.08.2016    source источник
comment
Если вам нужна помощь с выбором модели, спросите на странице Cross Validated, где есть статистические вопросы по теме (неважно, что вы хотите сделать это в R). Как только вы узнаете, какую модель использовать, вы сможете искать, как это сделать в R.   -  person MrFlick    schedule 05.08.2016
comment
Попробуйте поискать множественную регрессию с фиктивными переменными, этот вопрос лучше подходит для перекрестной проверки.   -  person Waqas    schedule 05.08.2016
comment
Алгоритмы дерева решений, такие как C5.0, могут быть весьма эффективными в задачи бинарной классификации, включающие комбинацию непрерывных и номинальных переменных.   -  person RHertel    schedule 05.08.2016


Ответы (1)


Учитывая троих, чаще всего начинают анализ с логистической регрессии.

Обратите внимание, что Logistic и Logit - это одно и то же.

Выбирая между Logistic и Probit, выбирайте Logistic.

Probit обычно возвращает результаты быстрее, в то время как Logistic имеет больше преимуществ для результата интерпретации.

Теперь, чтобы остановиться на переменных - вы можете варьировать количество переменных, которые вы собираетесь использовать в своей модели.

model1 <- glm(status ~., data = df, family = binomial(link = 'logit'))

Теперь проверьте сводку модели и проверьте важность переменных-предикторов.

model2 <- glm(status ~ gender + region + age + company + speciality + jobrole + diag + labs, data = df, family = binomial(link = 'logit'))

Уменьшая количество переменных, вы сможете лучше определить, какие переменные важны.

Также убедитесь, что вы выполнили очистку данных перед этим.

Избегайте включения сильно коррелированных переменных, вы можете проверить их с помощью cor()

person Pj_    schedule 05.08.2016