Машинное обучение за 4 минуты: машины опорных векторов

Во второй части этой мини-серии #4MinutesML мы раскроем тайны, стоящие за использованием машин опорных векторов (SVM), и варианты их практического использования.

Что такое машины опорных векторов?

Метод опорных векторов (SVM), предложенный Вапником и Червоненкисом в 1963 году, представляет собой метод обучения с учителем для классификации и регрессионного моделирования. Он стремится найти оптимальную разделяющую гиперплоскость, которая максимизирует разницу между классами. Гиперплоскость — это плоское аффинное подпространство размерности (m-1) в m-мерном пространстве. Эта гиперплоскость определяется опорными векторами, которые являются точкой данных, ближайшей к границе решения. Например, популярное ядро RBF (радиальная базисная функция) можно использовать для отображения точек данных в многомерное пространство, чтобы они стали линейно разделимыми. Как только точки данных сопоставлены, SVM найдет оптимальную гиперплоскость в этом новом пространстве, которая может разделить точки данных на два класса.

Ключевые термины, которые нужно знать в SVM

Ядро: функция, используемая для преобразования входных данных в многомерное пространство. Ядра позволяют SVM обрабатывать нелинейно разделяемые данные, отображая их в пространство, где возможно линейное разделение.
Линейный SVM: SVM использует линейное ядро для создания линейной границы решения.
Нелинейный SVM: SVM, использующий нелинейное ядро, такое как полиномиальная и радиальная базисная функция (RBF), для создания нелинейной границы решения.
Поиск по сетке: метод, используемый для поиска оптимальной комбинации гиперпараметров для модели SVM путем исчерпывающего поиска в определенном диапазоне значений параметров.
Трюк с ядром: использование функции ядра для неявного сопоставления входных данных с объектами более высокого измерения без вычисления координат преобразованных точек данных.

Преимущества SVM

Менее подвержен выбросам, чем логистическая регрессия, поскольку рассматривает точки, которые находятся ближе всего к опорному вектору.
Эффективен в многомерном пространстве и корпоративных сценариях использования, таких как распознавание изображений и обнаружение фишинга по электронной почте.
Способен решать как линейные, так и нелинейные задачи, используя функции ядра.

Недостатки SVM

Длительное время обучения для больших наборов данных
Сложно настроить гиперпараметры
Не выводит вероятности изначально
Сложность обработки зашумленных данных

Выбор полей в SVM

Регуляризация может быть применена к SVM с использованием как жесткого, так и мягкого поля. Жесткий запас направлен на максимальное расстояние между двумя гиперплоскостями и может быть разрешен с помощью множителей Лагранжа. Этот метод применяется только в том и только в том случае, если точки данных линейно отделимы, и, таким образом, можно уменьшить ошибочную классификацию.

С другой стороны, мягкая маржа направлена на минимизацию частоты ошибочной классификации, если точки данных не могут быть линейно разделены. Это требует использования переменной резерва и параметра регуляризации, которые действуют как баланс между максимизацией маржи и минимизацией убытков.

Пример кода для модели классификации (набор данных Iris)

Использование SVM для классификации электронной почты

Машины опорных векторов можно использовать для классификации того, является ли полученное электронное письмо спамом или нет. Этот вариант использования требует использования методов обработки естественного языка, таких как токенизация и встраивание векторов.

Шаги описаны ниже:

Загрузите набор данных, содержащий тексты электронных писем и соответствующие им метки (спам или не спам).
Разделите данные на наборы для обучения и тестирования.
Выполните извлечение признаков с помощью CountVectorizer, который преобразует текст в векторы числовых признаков.
Создайте классификатор SVM с линейным ядром и обучите его, используя обучающие данные.
Оцените точность классификатора на данных тестирования.
Используйте обученный классификатор, чтобы делать прогнозы для новых примеров электронной почты.

Заключение

Машины опорных векторов очень полезны в других случаях использования, таких как категоризация гипертекста, которые значительно уменьшают потребность в помеченных обучающих экземплярах как в стандартных, так и в трансдуктивных настройках. В следующей серии мы расскажем о рекомендательных системах — популярном алгоритме прогнозирования, используемом в онлайн-покупках и развлечениях.

Предыдущая статья

Давайте изучим ML: подробное руководство по алгоритму дерева решений
В первой части мини-серии #LetsLearnML мы рассмотрим алгоритм дерева решений и поймем его… medium.com

Если вам понравилось читать мой контент:

Похлопайте этой статье 👏 и подписывайтесь на меня Азиз Будиман, чтобы получать статьи о данных, искусственном интеллекте и многом другом.
Покажите свою поддержку, чтобы помочь мне писать более качественный контент для сообщества Medium по этой ссылке http://www.buymeacoffee.com/azizbudiman.