Статистика в серии R

Введение

Простая логистическая регрессия включает только одну переменную-предиктор, и мы реализовали ее с помощью R ранее. Мы также обсудили статистику согласия. Часто данные реального мира имеют несколько переменных-предикторов. Иногда мы просто не знаем, сделает ли включение дополнительной переменной в качестве предиктора модель более надежной или нет. Поэтому нам нужно всегда сравнивать полную модель с вложенной моделью и делать выводы на основе данных. Здесь мы увеличим количество независимых параметров и расширим наше исследование множественной логистической регрессии.

Набор данных

Данные Общего социального обследования (GSS) 2016 года будут использоваться для демонстрации логистической регрессии. Данные были загружены из Архивы данных ассоциации религий и собраны Томом В. Смитом. Этот набор данных включает ответы, полученные от почти 3000 респондентов, и содержит данные, связанные с несколькими социально-экономическими факторами. Он содержит различные типы данных, такие как информация, касающаяся семейного положения человека, статуса его образования, рабочего времени, статуса занятости и т. д. Давайте подробнее рассмотрим этот набор данных, чтобы лучше понять его.

Для каждого человека в столбце DEGREE указан уровень образования, а в столбце MADEG указан уровень образования каждой отдельной матери. В этом исследовании мы стремимся определить, является ли уровень бакалавра матери хорошим предиктором уровня бакалавра детей. Этот набор данных содержит категориальные данные, закодированные в обычном порядке.

Ответ, который мы пытаемся найти

В предыдущей статье о множественной логистической регрессии (ссылка ниже)



мы попытались ответить на следующий вопрос.

Влияет ли уровень образования матери на уровень образования детей?

Наш анализ данных выявил положительный коэффициент для MADEG, который отражает уровень образования матери. Как видно из интерпретации раздела результатов на следующем рисунке, оценка пересечения равна 0,257, а оценка коэффициента MADEG равна 0,316. Соответственно, на каждую единицу увеличения прогностической переменной, которой является уровень образования матери, логит-вероятность того, что уровень образования ребенка будет иметь значение 1, увеличится на 0,31598. Однако это по-прежнему представляет собой положительный наклон, указывающий на увеличение переменной отклика с увеличением переменной предиктора. Таким образом, вероятность того, что ребенок получит степень бакалавра, увеличивается, если его или ее мать имеет степень бакалавра.

Теперь мы поставим новый вопрос.

Связан ли уровень образования отца с образованием детей или он не коррелирует?

Когда мы включаем другую независимую переменную, простая логистическая регрессия становится множественной логистической регрессией.

Реализация в R

Чтобы выполнить это регрессионное исследование в R, нам потребуются следующие библиотеки. Данные хранятся в файле Excel, и мы будем использовать функцию glm(). Разница теперь заключается в добавлении PADEG, который представляет уровень образования отца.

Интерпретация результата

В качестве первого шага в процессе реализации логистической регрессии нам необходимо преобразовать вероятность успешного вывода в логарифмические показатели, чтобы определить коэффициент и точку пересечения переменной-предиктора. Ниже я дал краткую интерпретацию данных. Кроме того, я поместил выходные окна простой логистической регрессии в то же место для сравнения.

  1. Коэффициент MADEG равен 0,136, а коэффициент PADEG равен 0,375, а коэффициент пересечения остается аналогичным. Мы можем заключить, что на каждую единицу повышения уровня образования матери логит-вероятность того, что уровень образования ребенка будет иметь значение 1, увеличивается на 0,135, что все еще является положительным, и на каждую единицу повышения уровня образования отца логит-вероятность уровень образования ребенка при значении 1 увеличивается на 0,375, что также положительно. Другими словами, когда учитываются степени бакалавра как матери, так и отца, вероятность получения степени бакалавра ребенком возрастает.
  2. Соответствующее значение p меньше 0,05, что также говорит нам об отклонении нулевой гипотезы. Нулевая гипотеза здесь заключается в том, что «переменные-предикторы имеют коэффициент 0 и по существу не влияют на переменную ответа». Таким образом, можно сделать вывод, что степень бакалавра матери и отца существенно влияет на степень бакалавра ребенка.
  3. Значение псевдо R² также можно сравнить с аналогом простой логической регрессии. Очевидно, что значения псевдо R² в этом случае увеличились, если учесть уровень образования отца. Это означает, что полная модель подходит лучше, чем простая логистическая модель.
  4. Также можно сравнить статистику AIC/BIC. Также видно, что в полной модели значения AIC/BIC меньше. Меньшие значения AIC/BIC указывают на лучшее соответствие, и это также подтверждает утверждение псевдо-R², где мы также пришли к выводу, что полная модель лучше.
  5. Отклонение простой модели логистической регрессии составляет 532,11, тогда как отклонение новой модели составляет 395,40, что означает, что новая модель имеет меньшее отклонение от насыщенной модели. В насыщенной модели количество параметров равно размеру выборки, поскольку она содержит один параметр для каждого наблюдения. Разница между нулевым отклонением и остаточным отклонением используется для определения значимости текущей модели.
  6. Мы также можем рассчитать логарифмическое отношение правдоподобия, вычитая отклонения между этими двумя моделями. Это делается для сравнения нескольких вложенных моделей с полной моделью, в которой учитываются все возможные переменные-предикторы.

Логарифмическое отношение правдоподобия = Отклонение сокращенной модели — Отклонение полной модели

Заключение

Мы обсудили множественную логистическую регрессию и ее реализацию в R. Мы также рассмотрели выходные данные R и интерпретировали результаты опроса общего общества. Положительный коэффициент при предикторных переменных указывает на то, что с увеличением значения степени бакалавра матери и отца от 0 до 1 вероятность того, что степень бакалавра ребенка станет равной 1, увеличивается на 0,135 и 0,375 соответственно, или, другими словами, можно сделать вывод, что степень бакалавра матери и отца образование отца значительно повлияло на образование ребенка в нашем наборе данных.

Спасибо за прочтение.