У меня есть файл данных (1 миллион строк), который имеет одну конечную переменную как статус (да / нет) с тремя непрерывными переменными и 5 номинальными переменными (5 категорий в каждой переменной). Я хочу предсказать результат, то есть статус. Я хотел знать, какой тип анализа подходит для построения модели. Я видел логит, пробит, логистическую регрессию. Я не понимаю, с чего начать, и анализирую переменные, которые, скорее всего, полезны для анализа.
файл данных: пол, регион, возраст, компания, специальность, должность, диагноз, лаборатории, заказы, статус
М, запад, 41, ПА, ФПК, Ассистент, код18,27,3, да
М, Юго-Западная, 65, CV, ФПК, Рабочий, код18,69,11, нет
М, Юг, 27, ДВ, ИМК, Ассистент, инвалид, 62,13, нет
М, Юго-запад, 18, CV, IMC, Рабочий, code8,6,1, да
PS: Используя язык R. Любая помощь будет принята с благодарностью! Спасибо!