Эта статья будет посвящена множителям Лагранжа, и я попытаюсь дать интуитивное геометрическое понимание, а затем в другой статье мы увидим, как это связано с SVM.

Во-первых, вот небольшая выдержка о Лагранже, взятая из Википедии:

Ладно, где мы были?

Мы хотим максимизировать маржу (уравнение 1, назовем его f) при условии, что все точки будут правильно классифицированы (уравнение 2, назовем его g).

Пока мы обобщаем, рассмотрим функции f(x) и g(x), приведем их вернемся к проблеме оптимизации SVM позже.

Мы можем переформулировать наше неравенство ограничений, чтобы

Таким образом, у нас есть два сценария. Тот, в котором g(x)=0 и g(x)›0. Последнее повлияет на первое, в которое мы углубимся позже, но сначала мы выведем функцию Лагранжа, используя геометрическую интерпретацию. Сначала рассмотрим случай, когда g(x)=0.

ДЕЛО 1

Рассмотрим вектор x, построенный в D-мерном пространстве.

Красная линия показывает контур, где g(x) = 0. Мы хотим найти точку на поверхности ограничений, которая максимизирует f(x). Максимум находится путем взятия производной и обнуления. Здесь мы покажем, что существуют два антипараллельных вектора

такое, что существует λ, удовлетворяющее условию

СЛУЧАЙ 2

Эти последние 3 уравнения известны как условия Каруша-Куна-Таккера (ККТ) и будут иметь ключевое значение для понимания возможности обобщения SVM.

Ссылка: Бишоп — Машинное обучение и распознавание образов. Приложение Д.