Анализ модели IN R (логистическая регрессия)

У меня есть файл данных (1 миллион строк), который имеет одну конечную переменную как статус (да / нет) с тремя непрерывными переменными и 5 номинальными переменными (5 категорий в каждой переменной). Я хочу предсказать результат, то есть статус. Я хотел знать, какой тип анализа подходит для построения модели. Я видел логит, пробит, логистическую регрессию. Я не понимаю, с чего начать, и анализирую переменные, которые, скорее всего, полезны для анализа.

файл данных: пол, регион, возраст, компания, специальность, должность, диагноз, лаборатории, заказы, статус

М, запад, 41, ПА, ФПК, Ассистент, код18,27,3, да

М, Юго-Западная, 65, CV, ФПК, Рабочий, код18,69,11, нет

М, Юг, 27, ДВ, ИМК, Ассистент, инвалид, 62,13, нет

М, Юго-запад, 18, CV, IMC, Рабочий, code8,6,1, да

PS: Используя язык R. Любая помощь будет принята с благодарностью! Спасибо!

Malay Revanth 05.08.2016 источник

comment

Если вам нужна помощь с выбором модели, спросите на странице Cross Validated, где есть статистические вопросы по теме (неважно, что вы хотите сделать это в R). Как только вы узнаете, какую модель использовать, вы сможете искать, как это сделать в R. - MrFlick 05.08.2016

comment

Попробуйте поискать множественную регрессию с фиктивными переменными, этот вопрос лучше подходит для перекрестной проверки. - Waqas 05.08.2016

comment

Алгоритмы дерева решений, такие как C5.0, могут быть весьма эффективными в задачи бинарной классификации, включающие комбинацию непрерывных и номинальных переменных. - RHertel 05.08.2016

Ответы (1)

arrow_upward
2
arrow_downward

Учитывая троих, чаще всего начинают анализ с логистической регрессии.

Обратите внимание, что Logistic и Logit - это одно и то же.

Выбирая между Logistic и Probit, выбирайте Logistic.

Probit обычно возвращает результаты быстрее, в то время как Logistic имеет больше преимуществ для результата интерпретации.

Теперь, чтобы остановиться на переменных - вы можете варьировать количество переменных, которые вы собираетесь использовать в своей модели.

model1 <- glm(status ~., data = df, family = binomial(link = 'logit'))

Теперь проверьте сводку модели и проверьте важность переменных-предикторов.

model2 <- glm(status ~ gender + region + age + company + speciality + jobrole + diag + labs, data = df, family = binomial(link = 'logit'))

Уменьшая количество переменных, вы сможете лучше определить, какие переменные важны.

Также убедитесь, что вы выполнили очистку данных перед этим.

Избегайте включения сильно коррелированных переменных, вы можете проверить их с помощью cor()

Pj_ 05.08.2016

Анализ модели IN R (логистическая регрессия)

Ответы (1)

Вопросы по теме