Введение

Линейная регрессия используется для аппроксимации (линейной) взаимосвязи между бесконечной переменной отклика и группой переменных-предикторов. Однако, когда переменная ответа является бинарной (т. е. Да/Нет), линейная регрессия не подходит. К счастью, аналитики могут обратиться к аналогичному методу логистической регрессии, который похож на линейную регрессию с возможностью работы и в качестве классификатора. Это расширение простой модели регрессии для задач классификации.

С помощью линейной регрессии мы можем предсказать, «Сколько покупатель потратит, совершая покупки на нашем веб-сайте?» но логистическая регрессия помогает нам ответить на более фундаментальный вопрос: «Будет ли клиент покупать на нашем веб-сайте?».

Логистическая регрессия — это модель, предсказывающая вероятность возникновения события. Она называется логистической, потому что мы используем логистическую функцию, чтобы поддерживать вероятность в диапазоне от 0 до 1. Эта модель лучше всего работает в случае бинарной классификации, поскольку она может использовать логистическую функцию.

Предположения логистической регрессии

  1. Логистические регрессии нелинейны по определению.
  2. Логистическая регрессия требует, чтобы наблюдения были независимы друг от друга.
  3. Логистическая регрессия требует, чтобы мультиколлинеарность между независимыми переменными была незначительной или отсутствовала. Это означает, что независимые переменные не должны быть слишком сильно коррелированы друг с другом.

Теория

Решением для классификации является логистическая регрессия. Вместо подгонки линии или гиперплоскости модель логистической регрессии использует логистическую функцию, чтобы сжать результат уравнения между 0 и 1. Логистическая функция определяется как:

Шаг от простой регрессии к логистической регрессии довольно прост. В модели линейной регрессии мы смоделировали взаимосвязь между результатом и функциями с помощью линейного уравнения:

Для классификации мы предпочитаем вероятности от 0 до 1, поэтому мы превращаем правильную часть уравнения в логистическую функцию. Это заставляет вывод принимать только значения от 0 до 1.

Последние мысли

Логистическая регрессия может страдать от полного разделения. Если есть функция, которая может идеально разделить 2 класса, модель логистической регрессии нельзя обучить. Это связано с тем, что нагрузка для этой функции не будет сходиться, поскольку оптимальный вес будет бесконечным. Это в основном немного прискорбно, потому что такая функция действительно полезна. Но вам не нужно машинное обучение, если у вас есть простое правило, разделяющее оба класса. Проблема полного разделения часто решается введением пенализации весов или определением предварительного распределения вероятностей весов.

С другой стороны, модель логистической регрессии — это не только модель классификации, но и дает нам вероятности. Это большое преимущество перед другими моделями, которые могут обеспечить только окончательную классификацию. Знание того, что экземпляр имеет вероятность 99% для класса по сравнению с 51%, имеет большое значение.