Логистическая регрессия — Пошаговая глубокая интуиция

«Логистическая регрессия: когда шансы встречаются с данными, превращая вероятности в решения».

Если вы не знакомы с линейной регрессией, сначала разберитесь с линейной регрессией: прочитайте статью

Логистическая регрессия — это тип контролируемого машинного обучения. Его также называют логит-регрессией. Важно отметить, что логистическая регрессия — это не алгоритм регрессии, а скорее алгоритм обучения классификации. Хотя это называется регрессией, это связано с тем, что математическая формулировка логистической регрессии аналогична линейной регрессии.

Логистическая регрессия, используемая для алгоритма классификации. Это работает для классификации бинарных классов, а также для задач мультиклассовой классификации. Логистическая регрессияклассифицирует экземпляры по классам на основе их вероятности или вероятности для класса.

Теперь сначала мы видим сигмовидную функцию…

Сигмовидная функция

Где:

z — входное значение.
e — основание натурального логарифма

Сигмовидная функция, также известная как логистическая функция, представляет собой математическую функцию, которая обычно используется в машинном обучении и статистике. Выход сигмовидной функции σ(z) ограничен между 0 и 1. Это означает, что она выдает значения только между 0 и 1 для любого входного значения от -∞ до +∞. Это особенно полезно для представления вероятностей или правдоподобия.

Математическая интуиция за логистической регрессией

Здесь я использую вариант использования классификации двоичных классов. Позже я объясню мультиклассовую классификацию.

Как мы обсуждали ранее, математика логистической регрессии такая же, как и у линейной регрессии. Следовательно, подобно линейной регрессии, модель логистической регрессии вычисляет взвешенную сумму входных признаков вместе с членом смещения.

Приведенное выше уравнение представлено в векторизованной форме. Где:

xT: вектор входных признаков

θ: вес для входных функций

b: погрешность

В отличие от линейной регрессии, логистическая регрессия напрямую не выводит результат из уравнения, упомянутого выше. Вместо этого в целях классификации используется сигмовидная функция. После вычисления уравнения, упомянутого ранее, алгоритм передает выходные данные сигмовидной функции (также называемой стандартной логистической функцией). Сигмовидная функция принимает эти входные данные и генерирует выходные данные для классификации заданных экземпляров.

Сигмовидная функция выдает значения в диапазоне [0, 1], выступающие в качестве вероятностей или правдоподобия того, что экземпляры принадлежат к определенному классу.

Здесь:

p̂: вероятность экземпляра для принадлежности к определенному классу.

После операции сигмовидной функции алгоритм использует пороговое значение для классификации классов. Обычно в классификации бинарных классов мы используем 0,5 в качестве порогового значения. Следовательно, когда сгенерированная вероятность > 0,5, экземпляр классифицируется как принадлежащий к положительному классу или классу 2. И наоборот, когда вероятность ≤ 0,5, экземпляр классифицируется как принадлежащий к отрицательному классу или классу 1.

Пороговое значение может различаться в зависимости от условий проблемы.

Теперь в контексте логистической регрессии у нас есть два параметра θ и b. Возникает вопрос: как алгоритм определяет оптимальные значения для θ и b или как алгоритм обучается для достижения высокой точности?

Основная цель обучения — настроить вектор параметров θ таким образом, чтобы модель точно оценивала высокие вероятности для положительного класса (1) и низкие вероятности для отрицательного класса (0). Для достижения этой цели используется функция стоимости для повышения точности модели. В этом контексте функция логарифмического правдоподобия используется в качестве выбранной функции стоимости. Эта функция играет ключевую роль в повышении точности модели.

В логистической регрессии вместо минимизации функции затрат наша цель состоит в том, чтобы максимизировать функцию затрат насколько это возможно.

Функция стоимости или функция Log-Loss

Функция логарифмических потерь, также известная как логарифмическая потеря или кросс-энтропийная потеря, является важным компонентом логистической регрессии и других алгоритмов классификации. Он измеряет несоответствие между предсказанными вероятностями модели и фактическими метками классов, присутствующими в обучающих данных. Основная задача состоит в том, чтобы свести к минимуму эти потери во время тренировочного процесса.

Здесь Yi представляет фактический класс, а log(p(i) — вероятность этого класса.

p(i) — вероятность 1.
(1-p(i)) — вероятность 0.

Когда фактический класс равен 1: второй член в формуле будет равен 0, и мы останемся с первым членом, то есть yi.log(p(i)) и (1–1).log(1-p(i) это будет 0.
Когда фактический класс равен 0: первый термин будет равен 0, и останется второй термин, т.е. (1-yi).log(1-p(i)) и 0.log(p(i)) будет равен 0 .

Наша цель – максимально увеличить функцию затрат.

Поскольку эта функция стоимости выпуклая, поэтому градиентный спуск (или любой другой алгоритм оптимизации) гарантированно найдет глобальный минимум (если скорость обучения не слишком велика и вы ждете достаточно долго). Частные производные функции стоимости относительно j-го параметра модели θj определяются как:

Мы можем найти оптимальное значение параметров θ и b, используя алгоритм оптимизации. Например Градиентный спуск, стохастический градиентный спуск и т. д.

Почему бы нам не использовать среднеквадратичную ошибку (MSE) в качестве функции стоимости?

В логистической регрессии мы не используем функцию среднеквадратичной ошибки (MSE) в качестве функции стоимости для оценки производительности модели. В отличие от линейной регрессии, где ландшафт MSE образует выпуклую функцию или выпуклый график. логистическая регрессия использует сигмовидную функцию для прогнозов после линейного уравнения. Это приводит к невыпуклому графику функции. Благодаря этой характеристике граф может содержать несколько локальных минимумов.

Как следствие, алгоритму градиентного спуска часто требуется значительно больше времени для сходимости вокруг глобального минимума, а в некоторых случаях он может испытывать трудности со сходимостью к глобальному минимуму (в точках этих локальных минимумов наклон линейного уравнения математически становится равным 0). , в результате чего алгоритм прекращает дальнейшее обновление параметра θ, в результате алгоритм считает текущее значение θ лучшим, что препятствует дальнейшему продвижению.) вообще. Эта повышенная сложность создает проблемы для оптимизации, а методы на основе градиента могут не обеспечивать надежной сходимости.

Это все о математике, лежащей в основе логистической регрессии (двоичный случай). В следующей статье мы рассмотрим логистическую регрессию для случая использования мультиклассовой классификации.

Предположения и ограничения логистической регрессии:

Предположения.
Логистическая регрессия — это статистический метод, используемый для моделирования взаимосвязи между двоичной переменной результата и одной или несколькими переменными-предикторами. Он опирается на несколько предположений о своей достоверности:

1. Бинарный результат. Логистическая регрессия предполагает, что зависимая переменная (результат) является бинарной или дихотомической по своей природе. Он должен принимать только два возможных результата, обычно кодируемых как 0 и 1.

2. Независимость наблюдений: наблюдения (точки данных) должны быть независимы друг от друга. Это означает, что результат одного наблюдения не должен зависеть от результата другого наблюдения.

3. Линейность логита. Связь между логарифмическими шансами результата и предикторными переменными должна быть линейной. Это означает, что эффект изменения переменной-предиктора на одну единицу постоянен для всех значений этой переменной.

4. Отсутствие мультиколлинеарности. Логистическая регрессия предполагает отсутствие идеальной мультиколлинеарности среди переменных-предикторов. Это означает, что переменные-предикторы не должны полностью коррелировать друг с другом.

Ограничения.
Хотя логистическая регрессия является широко используемым и универсальным методом, у нее также есть некоторые ограничения:

1. Линейное предположение. Логистическая регрессия предполагает линейную зависимость между логарифмическими шансами результата и предикторными переменными. Если истинная связь нелинейна, логистическая регрессия может не сработать.

2. Чувствительность к выбросам. Логистическая регрессия может быть чувствительна к выбросам, особенно если они сильно влияют на оцениваемые коэффициенты. Выбросы могут исказить предсказания модели.

3. Допущение независимости. Логистическая регрессия предполагает, что наблюдения независимы. Если в данных есть какая-либо форма зависимости или кластеризации, это может привести к смещенным стандартным ошибкам и неправильной проверке гипотез.

4. Переобучение. Как и любой другой метод моделирования, логистическая регрессия может переобучить данные, если модель слишком сложна по сравнению с объемом доступных данных.

5. Ограничено бинарными результатами. Логистическая регрессия специально разработана для бинарных результатов. Хотя существуют расширения, такие как полиномиальная логистическая регрессия для нескольких категорий, это может быть не лучший выбор для моделирования более сложных отношений.

Применения логистической регрессии:

Логистическая регрессия находит применение в различных областях благодаря своей простоте и интерпретируемости:

1. Медицина и здравоохранение: он используется для прогнозирования заболеваний, например, наличия у пациента заболевания на основе различных диагностических тестов.

2. Маркетинг. Логистическая регрессия может предсказать, может ли клиент приобрести продукт, основываясь на таких факторах, как демографические данные, поведение и прошлые покупки.

3. Оценка кредитоспособности. Банки и финансовые учреждения используют логистическую регрессию для оценки вероятности невыполнения клиентом своих обязательств по кредиту.

4. Социальные науки: он используется в таких областях, как психология, для прогнозирования поведения или результатов на основе различных факторов.

5. Эпидемиология. Логистическая регрессия используется для моделирования вероятности определенного события (например, возникновения болезни) в эпидемиологических исследованиях.

6. Обработка естественного языка. В анализе настроений можно использовать логистическую регрессию для классификации текста как положительного или отрицательного.

7. Обработка изображений: его можно использовать в задачах анализа изображений, таких как обнаружение объектов и распознавание лиц.

Помните, что пригодность логистической регрессии зависит от характера проблемы и допущений, с которыми она сталкивается. Если предположения нарушаются или отношения более сложны, альтернативные методы, такие как деревья решений, машины опорных векторов или нейронные сети, могут быть более подходящими.

Ссылки: