Квазибиномиальная логистическая регрессия

Эта история призвана объяснить квазибиномиальную логистическую регрессию многим начинающим исследователям данных в терминах непрофессионала.

В логистической регрессии наша переменная ответа - это двоичные данные (переменная Бернулли). Например, в огромном наборе данных часть пассажиров выжила, а часть, к сожалению, не выжила. Здесь условие выживания - это двоичная переменная, соответствующая распределению Бернулли.

Давайте представим себе гипотетический сценарий (нетитанический), когда спасательная команда отправляется и будет пытаться спасти одного пассажира за раз, и нет никакой гарантии, что команда спасет человека, за которым они идут. Вероятность выживания (от 0 до 1) каждого пассажира разная. Теперь, если мы настроим математику для прогнозирования вероятности выживания каждого пассажира с учетом их специфики (предикторов, например, возраста, пола и т. Д.), Мы в основном перейдем к бинарной логистической регрессии.

Что такое биномиальная регрессия? В нашем последнем сценарии нас беспокоит вероятность выживания одного пассажира. Если мы зададим другой вопрос и захотим узнать, сколько пассажиров будет спасено за 20 попыток спасения или за 30 попыток. На этот раз мы считаем общий успех для заданного количества попыток. В этом сценарии наш ответ (количество пассажиров, сэкономленных в данной попытке) следует биномиальному распределению. Задача логистической регрессии, установленная для прогнозирования результата в этом сценарии, называется биномиальной логистической регрессией.

Что же тогда такое квазибиномиальная логистическая регрессия? Когда мы используем биномиальную логистическую регрессию, мы предполагаем, что все наши предварительные условия выполнены в данных и при моделировании данных. Мы предполагаем, что все наблюдения независимы, а это значит, что каждый пассажир сам по себе. Выживание одного пассажира не связано с выживанием другого пассажира. Помимо этого предположения о независимом наблюдении, мы также предполагаем, что в модели мы не упустили ни одного важного предиктора (например, возраста, пола и т. Д.). Что касается выбора предикторов, мы предполагаем, что у нас есть правильный набор. Кроме того, мы предполагаем, что в данных нет выбросов. Приняв все эти условия, мы аппроксимируем данные с помощью биномиальной логистической регрессии. Во время проверки качества модели мы выяснили, что есть проблема с моделью. Скорее всего, одно или несколько наших предположений были ошибочными. Диагностический тест, который покажет нам, что некоторые из наших предварительных условий не выполнены, - это параметр модели «дисперсия».

Мы рассмотрим технические аспекты и измерение «дисперсии» в конце этого поста. Но пока, если мы видим, что параметр дисперсии нашей модели больше единицы, чем у нашей модели избыточная дисперсия. Предположим, наша проблема была изначально связана с одной точкой данных, которая является выбросом (выжил пассажир мужского пола старше 80 лет). Из-за этого выброса наша модель имеет избыточную дисперсию (параметр дисперсии имеет значение больше единицы). Теперь, каков наш следующий шаг. Мы можем удалить эти данные, просто сказав, что это выброс. Или мы можем использовать специальное семейство биномиальной регрессии. Особое семейство биномиальной регрессии, которое поможет нам подогнать модель даже с этим выбросом, - это квазибиномиальная логистическая регрессия.

Когда мы подбираем биномиальную логистическую регрессию с использованием любых инструментов (например, R, Python и т. Д.), Мы также можем вычислить отклонение остатков и степени свободы. Отношение отклонения невязок и степеней свободы модели является оценкой дисперсии. Когда значение параметра дисперсии больше единицы, мы можем сказать, что модель имеет избыточную дисперсию. Наличие чрезмерной дисперсии означает, что набор данных более изменчив, чем модель, которую фиксирует. Другими словами, параметры модели вводят в заблуждение из-за того, что все стандартные ошибки, значения p и доверительные интервалы недооцениваются моделью. Квазибиномиальная логистическая регрессия предназначена для решения этой конкретной ситуации.

Таким образом, если модель имеет избыточную дисперсию вместо биномиальной логистической регрессии, мы должны использовать квазибиномиальную логистическую регрессию. В принципе, если мы сомневаемся, мы можем предположить, что в данных присутствует чрезмерная дисперсия.