Классификация с помощью линейного подхода - что это вообще значит?

Классификация - разделение входного пространства на набор помеченных областей с использованием границ принятия решения. Или, отбрасывая терминологию, акт распределения вещей по однотипным классам.

Линейный подход - использование прямой линии для разделения набора данных. Интуитивно это проще всего как с точки зрения описания раздела («Если он попадает на одну сторону линии класса как A, если он падает на сторону класса как B»), так и с точки зрения выполнения разреза.

Как бы разрезать торт пополам с ножом? Ясно, что есть много способов выполнить этот разрез, но когда в последний раз вы (намеренно) не разрезали прямо посередине? Эта идея является основой семейства моделей, которые используют этот принцип, чтобы разрезать ваш торт (наборы данных) И помочь вам понять характеристики каждого сегмента, И помочь вам назначить новый торт существующим ломтикам И ... ох, я думаю, взял эту метафору слишком далеко.

Вы познакомились с методами обучения с учителем (см. Строительные блоки для обучения с учителем), и цель этой статьи - провести вас по пути мотивационных факторов для разработки линейных моделей в классификация. Хронология, если хотите.

Конечно, математическая теория имеет решающее значение, но, выйдя за пределы академического пузыря, где математическая строгость важнее всего, всегда побеждает почему - особенно для тех, кто хочет повлиять на проблемы реального мира.

Почему меня волнует эта техника? Зачем мне нужны качественные данные? Почему я не могу использовать эту модель? Почему эта модель не работает? Вы уловили картину, давайте перейдем к делу.

# 0 - Определение проблемы

Формализуя введение, типичная задача классификации требует набора входных переменных X = (X1, X2,…) и категориальной выходной переменной Y. Опять же, эта проблема относится к подмножеству задач контролируемого обучения. Таким образом, отдельное наблюдение может состоять из набора значений (x1, x2, y) и выглядеть примерно как (1,25, -0,5, зеленый).

* Щелкает пальцами *

На рисунке 1 показан наш первый торт! Сгенерированный набор данных состоит из 2 непрерывных переменных X1 и X2 (p = 2), и выходной переменной Y. который принимает значение в наборе {Blue, Orange, Green} (K = 3). Поскольку существует три возможных цвета, которые может принимать вывод, мы исследуем, какая линейная модель может дать нам лучший трехсторонний разрез нашего набора данных.

Эти данные были смоделированы с целью иллюстрации проблем модели - это означает, что они не являются реальными данными.

Попытка №1 - линейная регрессия

Правый график на рисунке 2 иллюстрирует классы, предсказанные по модели линейной регрессии (подгонка по методу наименьших квадратов), заданная (X1, X2) из нашего набора данных. Первые мысли? Мусор.

Регрессия отнесла очень мало наблюдений, которые, как мы знаем, к оранжевым, к классу оранжевых. Почему?

Перед постановкой диагноза мы откладываем обоснование этого подхода здесь и выделяем довольно удобный пример линейной регрессии здесь.

Линейное моделирование в контексте классификации состоит из регрессии с последующим преобразованием для получения категориального вывода и, таким образом, создания границы решения. На самом деле модель не так уж много, что упрощает диагностику. Единственные движущиеся части - это наш выбор коэффициентов регрессии и наша граница решения (наше преобразование из вывода непрерывной регрессии в цвет).

Вспомните из первого ресурса выше, что линейная регрессия направлена ​​на моделирование функции регрессии, математическое ожидание Y с учетом всей доступной информации. Мы не доказываем это здесь, но для задачи классификации это математически эквивалентно вероятности того, что конкретный результат Y находится в определенном классе k с учетом всей доступной информации, X. Это известно как апостериорная вероятность и обсуждается в байесовском контексте в первом упомянутом ресурсе. Следовательно, граница принятия решения определяется областями, в которых два класса имеют одинаковую апостериорную вероятность. Интуитивно наблюдения классифицируются по областям с наибольшей вероятностью - кажется правильным.

Это оставляет нам возможность взглянуть на выбор коэффициента регрессии. Поскольку они оптимизированы, необходимо тщательно изучить методику оптимизации. Мы знаем, что оптимизация коэффициентов эквивалентна минимизации нашей функции потерь, которая представляет собой остаточную сумму квадратов. Давайте изобразим результат этой функции потерь, которую мы называем ошибкой.

На рисунке 3 (слева) показана оцененная функция ошибок для каждого наблюдения (X1, X2), построенная по отношению к X1. Для каждого наблюдения есть кресты зеленого, оранжевого и синего цветов, а цвет креста с наименьшей ошибкой - это выбранный класс для регрессии.

Для большинства наблюдений мы видим, что отнесение к классу Orange неоптимально. То есть, если следовать оси x слева направо, очень редко точка, ближайшая к оси x, имеет оранжевый цвет. Фактически, это случается только один раз.

Правильный сюжет - для перспективы; когда вы перемещаете ось x на обоих графиках слева направо, функция ошибок явно минимизируется классом Blue для X1 ‹- 0,25 и явно минимизируется классом Green для X1 ›0,5. Между ними, различие между синими и зелеными классами неясно. Следовательно, выходные данные для m, n наблюдений в этой области представляют собой совокупность обоих. Подождите! Мы знаем, глядя на график набора данных, что это именно та область, где находится большая часть нашего класса Orange. Наблюдения в оранжевом классе почти всегда ошибочно классифицируются как синие или зеленые. Ой!

Оказывается, для более чем 2 классов (K ›2) линейная регрессия изо всех сил пытается увидеть все классы. Это называется маскированием и приводит к серьезным ошибкам в классификации. Нам явно нужна лучшая модель.

Попытка №2 - Линейный дискриминантный анализ (LDA)

Линейный дискриминантный анализ (LDA) - это немедленное улучшение нашей первой попытки. На рисунке 4 показаны выходные данные модели LDA для нашей обучающей выборки. Мы больше не используем маскировку, и количество ошибок в классификации значительно сократилось. Отлично ... но что на самом деле такое LDA?

Дискриминант сущ. Отличительная черта или характеристика.

Дискриминантный анализ в целом - это метод классификации на несколько классов, в котором используется предположение, что данные каждого класса происходят из семейства, которое демонстрирует очень специфическое пространственное поведение (так называемое распределение). Статистические свойства (такие как среднее значение и дисперсия) являются отличительной характеристикой распределения и затем используются для оценки того, какой класс условно наиболее вероятен для любого наблюдаемого наблюдения.

LDA - частный случай этого метода, который предполагает, что наблюдения от каждого класса исходят из индивидуального гауссовского распределения с общей ковариационной матрицей для разных классов.

Один из способов интерпретировать эту проблему - рассмотреть 3 объекта разного цвета в закрытом ящике. Хотя вы не можете заглянуть в коробку, в ней есть несколько крошечных отверстий, которые показывают один из трех цветов. Ваша задача - определить границы каждого цвета внутри рамки и, следовательно, понять размер и форму каждого объекта. Переводя предыдущий абзац, LDA предполагает, что каждый объект в блоке представляет собой сферу (или эллипсоид - распределение Гаусса) и одинакового размера (общая ковариационная матрица).

Эти статистические свойства обычно являются параметрами предполагаемого гауссова распределения, которые затем вставляются в приведенные ниже линейные дискриминантные функции.

Это единственная математическая функция, необходимая для этого метода. Его вывод происходит в результате сравнения апостериорных вероятностей двух классов и последующей классификации, основанной на наивысшей оценке (также наблюдаемой в наивных байесовских классификаторах).

Процедура подбора модели включает оценку параметров с использованием заданного набора данных. Для вычисления линейных дискриминантных функций для каждого класса требуются следующие оценки:

  1. выборочное среднее класса - среднее (X1, X2) для каждого класса, интуитивно это дает указание на центральное положение каждого класса (называемое центроидом ).
  2. Класс априорная вероятность - количество наблюдений в данном классе k, деленное на общее количество наблюдений, то есть простую долю каждого класса в наборе данных. Это наивное предположение о том, насколько вероятно, что мы получим наблюдение за классом, не зная данных.
  3. Выборочная ковариационная матрица - приблизительная мера того, насколько распределена полная выборка. Это фактически среднее значение разброса каждого класса.

Все, что остается для получения прогнозов LDA, - это вставить приведенные выше оценки в линейные дискриминантные функции и выбрать класс, который максимизирует функции для заданного набора входных данных.

Расширение - квадратичный дискриминантный анализ (QDA)

Что, если в нашей метафоре объекта отказаться от предположения, что каждый объект представляет собой эллипсоид одинакового размера? То есть спросить, а что, если мы ослабим наши предположения об общей ковариации и гауссовых данных. Понятно, что наши дискриминантные функции были бы другими, но как?

Сохраняя предположение об эллипсоиде объекта, но допуская разницу в размере, мы приходим к расширению LDA под названием Квадратичный дискриминантный анализ (QDA). Результирующие дискриминантные функции для QDA квадратичны по X,

Процедура остается такой же, как LDA, нам потребуются следующие оценки:

  1. выборочное среднее класса - среднее (X1, X2) для каждого класса, интуитивно это дает указание на центральное положение каждого класса (называемое центроидом ).
  2. Класс априорная вероятность - количество наблюдений в данном классе k, деленное на общее количество наблюдений, то есть простую долю каждого класса в наборе данных. Это наивное предположение о том, насколько вероятно, что мы получим наблюдение за классом, не зная данных.
  3. Ковариационная матрица образца класса - приблизительная мера того, насколько разбросан каждый класс.

Обратите внимание, что из сценария LDA изменилось только 3. Фактически, LDA можно рассматривать как частный случай QDA, где ковариационная матрица одинакова для каждого класса.

На рисунке 5 показана производительность LDA и QDA на более сложном наборе данных.

Разница в границах между двумя моделями сродни разнице в рисовании прямой граничной линии (LDA) и изогнутой граничной линии (QDA). Очевидно, разброс точек в обучающей выборке 2 варьируется в большей степени, чем мы видели ранее. QDA достаточно гибок, чтобы улавливать этот разброс гораздо эффективнее, чем LDA, и его можно наблюдать по производительности в классе Orange.

Так что мы всегда должны использовать QDA, верно? Хорошо, может быть. Хотя QDA является предпочтительным, с увеличением количества классов увеличивается и количество параметров, которые нам нужно оценить. Действительно ли предельное улучшение модели стоит увеличения вычислительной сложности? Для проблемы с «небольшими данными», подобной той, которую мы здесь видели, да, но для гораздо большего набора классов это неясно.

Подводя итог, в части 1 мы имеем:

  • Выявлена ​​проблема возможности группировать / разрезать наборы данных.
  • Разработал классификатор линейной регрессии для примера из трех классов, который подвергался маскированию.
  • Обнаружено, что LDA - очень мощный инструмент для корректных наборов данных по Гауссу.
  • Расширен до QDA для более гибкого, но более дорогостоящего метода для менее качественных наборов данных.

Комментарии и отзывы приветствуются!