Краткое изложение алгоритма логистической регрессии

Введение:

В этой статье я буду обсуждать алгоритм логистической регрессии (в дальнейшем именуемый LR), чтобы читателям было легко интерпретировать алгоритм математически.

Краткое введение:

LR в основном используется для бинарной классификации. Бинарная классификация — это классификация, в которой результат имеет только две категории, и классификация выполняется в одной из двух. Примером бинарной классификации является, например, обнаружение аномалий. Если есть аномалия, то она будет классифицирована как «1», иначе «0». Теперь, когда мы поняли, что такое бинарная классификация, давайте разберемся с реализацией LR для бинарной классификации.

Геометрическая интерпретация:

В LR предполагается, что данные линейно разделимы. Данные имеют функции, которые можно обозначить как «x» и соответствующие метки «y». Таким образом, данные «D» могут быть математически представлены как D ∈ {xi, yi}. yi имеет только два различных значения, таких как «1», «0», «-1» или «1». Для целей нашего примера мы будем рассматривать последний. С помощью алгоритма LR наша цель — найти линию или плоскость (в зависимости от размеров объектов), которая разделит объекты на два разных класса. Мы обучим модель машинного обучения с помощью обучающего набора данных и получим линию или плоскость, разделяющую данные. Теперь всякий раз, когда необходимо классифицировать новую точку данных, она будет классифицироваться по обе стороны от линии или плоскости в зависимости от ее характеристик (значения x). Таким образом выполняется классификация.

Теперь понятно, что в LR нам нужно найти уравнение прямой или плоскости, давайте подробнее рассмотрим, как это получить. Как указывалось ранее, разделение будет линией или плоскостью, будет зависеть от размерности объектов или просто от количества объектов. Для двух измерений разделением будет линия, плоскость или гиперплоскость для трех или более трех измерений. Для простоты и понимания предположим, что данные «D» имеют две функции x1 и x2, а также категориальную метку «1» и «-1». Данные линейно разделимы, и график показан ниже.

Зеленые точки и красные точки — это два отдельных класса. Если вы заметите, что в красной категории есть несколько зеленых точек, и наоборот. Это связано с тем, что в реальном сценарии мы никогда не получаем данные, которые можно было бы полностью разделить. Эти баллы можно считать ошибкой. «w» — это плоскость, а стрелка указывает направление этой плоскости. Точки в направлении «w» будут классифицированы как зеленые точки, а точки в направлении, противоположном направлению «w», будут классифицированы как красные. Уравнение «w» может быть получено из уравнения n-мерной плоскости:

w1x1 + w2x2 + w3x3 + …… wnxn + b = 0

В нашем случае уравнение «w» будет:

w1x1 + w2x2 + b = 0

Уравнение можно обобщить как w^t * xi + b = 0, где «xi» — это i-е наблюдение. Если плоскость проходит через начало координат, то значение b равно нулю. В уравнении w^t означает w-транспонирование «t», и это вектор-строка. «xi» — это вектор-столбец, а «b» — это скаляр, который является смещением или пересечениями. Теперь, когда у нас есть уравнение плоскости, давайте обсудим, как точки классифицируются с помощью этого уравнения.

Рассматривайте зеленые точки как точки +ve, которые будут помечены как «+1», а красные точки — это точки -ve, которые будут помечены как «-1». «+1» и «-1», как обсуждалось ранее, являются значением yi. Для простоты считайте, что значение смещения или точки пересечения равно нулю. Таким образом, уравнение плоскости принимает вид:

w^t * xi = 0

Приведенное выше уравнение самой плоскости является условием классификации. Следовательно, его можно назвать классификатором. Значение w^t * xi > 0 для всех точек в направлении «w», и они будут классифицированы как «+1». Значение w^t * xi ‹ 0 для всех точек в направлении, противоположном направлению «w», и эти точки будут классифицироваться как «-1». Итак, классификация сделана. Если мы хотим проверить, верна классификация или нет, мы можем вычислить значение

yi * w^t * xi

Классификация будет правильной тогда и только тогда, когда приведенное выше уравнение имеет значение больше «0», т. е. yi * w^t * xi > 0. Чтобы доказать это, рассмотрим точку в направлении +ve. Здесь w^t * xi > 0, а метка (yi) равна +ve (+1). Таким образом, значение yi * w^t * xi > 0. Теперь рассмотрим точку в -ve направлении «w». Здесь значение w^t * xi ‹ 0, и метка тоже -ve. Таким образом, их умножение снова будет значением больше 0. Таким образом, резюмируя:

  1. Для +1 или зеленых точек значение w^t * xi > 0.
  2. Для точек -1 или точек с красной меткой значение w^t * xi ‹ 0.
  3. Правильная классификация наблюдается только при yi * w^t * xi > 0.
  4. Если значение yi * w^t * xi ‹ 0, точка классифицируется неправильно.

Как получается оптимальное уравнение плоскости?

Оптимальное значение будет получено только тогда, когда у нас будет минимальное количество ошибочно классифицированных точек. То есть нам нужна классификация таким образом, чтобы значение yi * w^t * xi всегда было больше нуля. Поскольку в практических приложениях это невозможно, всегда будут некоторые точки, где значение yi * w^t * xi ‹ 0. Следовательно, если мы возьмем сумму всех yi * w^t * xi, мы можем сказать, что оптимальное значение уравнения будет получено только тогда, когда сумма максимальна. Для проверки суммы мы должны изменить значение «w» только потому, что значения «xi» и «yi» будут независимыми, так как они взяты из набор данных.

Но есть проблема с этой техникой. Если выбросы присутствуют, то ошибка классификации увеличивается, и мы не можем получить оптимальное значение. Не вдаваясь в подробности, давайте обсудим решение для этого. Чтобы свести к минимуму эффект, вызванный выбросами, мы используем сигмовидную функцию. Уравнение и график сигмовидной функции показаны ниже.

Значение «z» в сигмовидном уравнении на изображении выше:

yi * w^t * xi

Таким образом, окончательное уравнение становится:

𝛔 (z) = 1/ (1 + exp( -(yi*w^t * xi))

Таким образом, после применения предыдущей логики максимизации суммы приведенное выше уравнение принимает вид

max ∑ 1/ (1 + exp( -(yi*w^t * xi))

Интерпретацию на основе журнала можно сформулировать следующим образом:

макс ∑ log[1/ (1 + exp( -(yi*w^t * xi))]

Максимум (максимум) можно изменить на минимум, если мы сократим приведенное выше уравнение как:

W = мин { ∑ log [1+ exp( -(yi*w^t * xi)]}

Таким образом, это окончательная математическая формулировка логистической регрессии.

Вывод:

Выведенную выше формулу легко понять и интерпретировать математически. Я надеюсь, что эта статья поможет читателям понять, как алгоритм логистической регрессии реализует бинарную классификацию. Это все на сегодня. Приятного обучения!