Интерпретация минимизации потерь линейных моделей

Когда мы начинаем с машинного обучения, первый алгоритм, который изучает большинство из нас, - это логистическая или линейная регрессия. На уровне новичка мы сначала пытаемся получить геометрическую интуицию, лежащую в основе работы алгоритма, чтобы понять, что это такое и как он себя ведет, и что такого особенного в этих методах машинного обучения. После этого, большинство из нас, кто достаточно хочет погрузиться глубоко и понять настоящую математику, лежащую в основе этих методов, мы обратимся к некоторым блогам, статьям, книгам или YouTube. Но, изучая математику, лежащую в основе этих алгоритмов, мы упускаем кое-что очень интересное, объединяющее эти линейные алгоритмы в ЕДИНЫЙ ГРАФИК.

Введение в минимизацию потерь

Проще говоря, минимизация потерь - это не что иное, как наша попытка решить проблему оптимизации алгоритма с учетом того, что нам необходимо уменьшить количество баллов, пропущенных через классификацию. Перед тем, как углубиться в тему, мы узнаем о функции потерь 0-1, которую можно рассматривать как функцию идеальных потерь.

0-1 Функция потерь

Эта идеальная функция - очень простая функция, которая наказывает каждую пропущенную классификацию точки или простыми словами, если точка не классифицирована, мы штрафуем ее значением +1, и если точка классифицирована правильно, мы присваиваем ей значение 0. И этот пункт логичен также, если вы дадите минуту подумать над ним.

Этот график функции потерь 0-1 отображает описанный выше сценарий. По оси Y отложены потери, а по оси X - zi (мы узнаем больше о zi, когда свяжем его с логистической регрессией).

Логистическая регрессия с минимизацией потерь

Как мы все знаем, логистическая регрессия - один из самых популярных алгоритмов контролируемого обучения для решения задач классификационного машинного обучения. Теперь давайте посмотрим на проблему оптимизации, которую нам нужно решить для логистической регрессии (не беспокойтесь, это единственное из двух уравнений, которые вы увидите в этой статье, так как я не хочу глубоко погружаться в основную математическую работу. логистической регрессии).

Некоторые из вас могут удивиться, что это не проблема оптимизации, которую мы решаем для логистической регрессии. Приведенное выше уравнение выводится, когда мы используем геометрический метод для понимания работы логистической регрессии, а уравнение, записанное ниже, является тем, которое мы получаем после использования вероятностного метода.

Поверьте, оба уравнения одинаковы с простой, но очень важной разницей. В первом уравнении оптимизации значения yi для обозначения 2 классов равны -1 и +1, а во втором уравнении значения yi равны 0 и +1.

Теперь давайте соединим 1-е уравнение оптимизации с методом минимизации потерь. Итак, как мы знаем в разделе «Минимизация потерь», мы формируем нашу задачу оптимизации, чтобы минимизировать количество пропущенных классифицированных точек, используя функцию идеального 0-1, которую мы определили ранее. Но мы упустили кое-что очень важное при решении проблемы оптимизации, а именно то, что мы используем простое дифференциальное исчисление, которое может быть применено только к непрерывной функции.

Наша функция потерь 0-1 не является непрерывной при zi = 0, поэтому она не дифференцируема при zi = 0.

Что такое зи? zi - это не что иное, как yi * wT * xi in из нашего 1-го уравнения оптимизации. zi или yi * wT * xi в основном говорит нам, правильно ли наша модель классифицировала точку запроса или нет.

Решение проблемы

Итак, что мы можем сделать, так это то, что вместо использования функции потерь 0-1 мы можем попытаться аппроксимировать идеальную функцию потерь 0-1.

Одним из таких приближений является синяя линия, которую мы видим на графике. Эта синяя линия представляет собой не что иное, как график логистических потерь, а под графиком логистических потерь я имею в виду график log (1 + exp (-zi)), где zi = yi * wT * xi.

Чтобы подтвердить этот факт, вы также можете выполнить поиск сюжета в Google (log (1 + exp (-x)), и вы получите похожий сюжет, подобный этому.

Истинная красота подхода к минимизации потерь

Самым интересным в этом подходе является то, что, просто изменив аппроксимацию потерь 0-1, мы можем получить множество линейных моделей, например, если мы используем что-то, называемое потерей шарнира, тогда мы получим машину опорных векторов, или если мы используем потерю в квадрате, мы получим Линейная регрессия или, если мы используем логистические потери, тогда мы получим логистическую регрессию.

Заключение

Среди всей геометрической интуиции и понимания математики, лежащей в основе алгоритмов машинного обучения, мы упускаем эту интерпретацию минимизации потерь линейных моделей, которая открывает нам множество путей для исследования.