Метод опорных векторов был разработан в 1990 году и с тех пор завоевал популярность как один из лучших готовых классификаторов. SVM — это удобный для вычислений метод моделирования, который широко используется в моделях машинного обучения для прогнозирования категорийных данных. SVM основан на «Классификаторе максимальной маржи».

Классификатор максимальной маржи

Позвольте мне сначала представить гиперплоскости, которые играют важную роль в классификаторах максимальной маржи.

Гиперплоскости. Гиперплоскостью для p-мерного пространства является плоское аффинное подпространство p-1 измерения. например. линия — это гиперплоскость для двух измерений.

Гиперплоскость делит p-мерное пространство на две части. Уравнение гиперплоскости в p-мерном пространстве:

β0+β1X1+β2X2⋯+βpXp =0

Если x∈(x1,x2,…xp) s.t β0+ β1x1+ β2x2+…. βpxp ›0 или ‹0, tкогда x лежит по обе стороны от гиперплоскости

Рассмотрим матрицу nxp, в которой диапазоны строк xij-xnj, а диапазоны столбцов — xij-xip. Каждое наблюдение yi для xi,[xi1,xi2,….xip] попадает в одну из двух категорий yi∈{-1,1}

При таком подходе разделения гиперплоскостей можно предсказать принадлежность классификации к данному классу.

Тестовому наблюдению присваивается класс в зависимости от того, на какой стороне гиперплоскости оно существует. Если данные могут быть идеально разделены гиперплоскостью, тогда будет бесконечное количество гиперплоскостей, построенных путем поворота или смещения плоскости, и поэтому гиперплоскость следует выбирать с осторожностью. Естественным выбором является гиперплоскость максимального поля, также известная как оптимальная разделяющая гиперплоскость. Именно гиперплоскость наиболее удалена от тренировочного наблюдения. Пунктирные линии называются полями

Векторы поддержки

Три наблюдения лежат на краю и равноудалены от гиперплоскости максимального края. Они называются опорными векторами, и незначительное перемещение этих наблюдений также приведет к смещению гиперплоскости. В сущности, поддержка названия происходит от того факта, что они поддерживают гиперплоскость так, как другие наблюдения этого не делают.

Таким образом, гиперплоскость напрямую зависит от небольшого подмножества наблюдений, что является ключевой концепцией SVM.

Классификаторы максимальной маржи являются решениями следующей задачи оптимизации.

maximize(M)(β0, β1, β2,…. βp), где M — перпендикулярное поле расстояние от гиперплоскости

такое, что ||βj||=1

и Yi(β0+β1Xi1+β2Xi2⋯+βpXip)≥ M, это обеспечивает одинаковый знак Yi и β0+β1Xi1+β2Xi2⋯+βpXip, что означает, что они лежат на одной стороне гиперплоскости. Кроме того, расстояние ограничено M

Хотя это отличный способ предсказать класс, идеальная гиперплоскость, разделяющая два класса, слишком хороша, чтобы быть правдой, и часто мы сталкиваемся с ситуациями, когда нет разделяющих гиперплоскостей. Классификатор опорных векторов был разработан для решения этой ситуации.

Классификатор опорных векторов

Классификаторы опорных векторов являются классификаторами с мягкими границами и намеренно неправильно классифицируют несколько обучающих наблюдений, чтобы предотвратить переоснащение. Это следует за аналогичной задачей оптимизации с небольшими изменениями. Вводится погрешность ε, которая ограничивается неотрицательным параметром настройки C. Проблема оптимизации заключается в следующем:

максимизировать(M)(β0, β1, β2,…. βp,ε1,ε2,…..εn)

st. ||βj||=1

yi(β0+β1Xi1+β2Xi2⋯+βpXip)≥ M(1- εi),

εi ≥0, Σεi ≤ C

εi называются резервными переменными, которые позволяют отдельным наблюдениям находиться не на той стороне поля

если εi›0, неправильная сторона поля, εi›1, неправильная сторона гиперплоскости

C ограничивает сумму εi и указывает на серьезность нарушения предела. Это бюджет на сумму, на которую может быть нарушена маржа для n наблюдений

Для C>0 не более чем C наблюдений может находиться на неправильной стороне гиперплоскости.

Когда C увеличивается, мы становимся более терпимыми к нарушению маржи, а маржа расширяется, что приводит к более простой модели с риском высокого смещения и меньшей дисперсии.

Когда C уменьшается, маржа сужается, что приводит к переоснащению, снижению смещения и увеличению дисперсии.

C рассматривается как параметр настройки для выбора модели в компромиссе между смещением и дисперсией.

Классификаторы опорных векторов устойчивы к наблюдениям, лежащим вне гиперплоскости, и зависят от подмножества вблизи гиперплоскости

Машина опорных векторов

Метод опорных векторов может поддерживать классификацию с нелинейными границами решений. SVM устраняет нелинейность, увеличивая пространство признаков. например: для квадратичной границы вместо функций x1,x2,…xp SVM будет учитывать функции 2p, включая квадратичный член для каждой функции.

Решение классификатора опорных векторов включает только внутренние продукты наблюдений, которые в некотором смысле измеряют сходство между наблюдениями.

f(x) = β0 +Σαi<x,xi>

αi — это n параметров, отличных от нуля только для опорных векторов)

Это делает вычисления действительно простыми, так как наблюдения за границей обнуляются альфа-каналом.

ядро

В SVM ядро ​​— это функция, которая количественно определяет сходство между двумя наблюдениями.

Линейное ядро: k(xi,xj) =Σ‹xik,xjk›, это скалярный продукт

Полиномиальное ядро: линейное ядро ​​можно заменить полиномиальным ядром следующим образом:

k(xi,xj) = (1+Σ‹xik,xjk›)^d

Это свойство позволяет подбирать классификаторы опорных векторов в пространстве более высокой размерности с использованием полиномов. Когда классификатор опорных векторов объединяется с нелинейными ядрами, он называется Машина опорных векторов.

Радиальное ядро: это еще один популярный выбор ядра, которое имеет локальное поведение в том смысле, что только ближайшие обучающие наблюдения влияют на метку класса тестовых наблюдений. Формула дается,

Преимущество использования ядра по сравнению с увеличением всего пространства признаков заключается в облегчении вычислений за счет избегания изнурительных вычислений с увеличением пространства признаков.

Я надеюсь, что эта статья представляет собой начальный обзор машины опорных векторов. SVM — очень популярный метод машинного обучения, который широко используется в различных моделях.