Статья стремится представить краткую и четкую информацию о различных статистических методах в AI.

Статистическое обучение - это набор инструментов для понимания данных. Эти инструменты можно разделить на два класса: обучение с учителем и обучение без учителя. Как правило, контролируемое обучение относится к прогнозированию или оценке выходных данных на основе одного или нескольких входных данных. С другой стороны, обучение без учителя обеспечивает связь или находит закономерность в данных без контролируемого вывода.

Что такое статистическое обучение?

Пусть, предположим, что мы наблюдаем реакцию Y и p разных предикторов X = (X₁, X₂,…., Xp). В целом можно сказать:

Y =f(X) + ε

Здесь f - неизвестная функция, а ε - член случайной ошибки.

По сути, статистическое обучение относится к набору подходов к оценке f.

В случаях, когда у нас есть набор X, который легко доступен, но выход Y не так много, ошибка в среднем равна нулю, и мы можем сказать:

¥ = ƒ(X)

где ƒ представляет собой нашу оценку f, а ¥ представляет собой результирующий прогноз.

Следовательно, для набора предикторов X мы можем сказать:

E(Y — ¥)² = E[f(X) + ε — ƒ(X)]²
=> E(Y — ¥)² = [f(X) - ƒ(X)]² + Var(ε)

где,

  • E (Y - ¥) ² представляет ожидаемое значение квадрата разницы между фактическим и ожидаемым результатом.
  • [f (X) - ƒ (X)] ² представляет сокращаемую ошибку. Его можно уменьшить, потому что мы потенциально можем повысить точность ƒ за счет лучшего моделирования.
  • Var (ε) представляет неснижаемую ошибку. Это неприводимо, потому что независимо от того, насколько хорошо мы оцениваем ƒ, мы не можем уменьшить ошибку, вносимую дисперсией в ε.

Регрессия против проблемы классификации

Переменные Y в широком смысле можно охарактеризовать как количественные или качественные (также известные как категориальные). Количественные переменные принимают числовые значения, например возраст, рост, доход, цену и многое другое. Оценка качественных ответов часто называется проблемой регрессии. Качественные переменные принимают категориальные значения, например пол, бренд, части речи и многое другое. Оценка качественных ответов часто называется проблемой классификации.

В статистике не бывает бесплатного обеда: ни один метод не доминирует над всеми остальными над всеми возможными наборами данных.

Дисперсия и смещение

Дисперсия - это величина, на которую ƒ изменится, если мы оценим с разными наборами обучающих данных. В общем, когда мы переоснащаем модель на заданном наборе обучающих данных (уменьшаемая ошибка в обучающем наборе очень мала, но на тестовом наборе очень высока), мы получаем модель с более высокой дисперсией, поскольку любое изменение в точках данных будет приводит к существенно иной модели.

Смещение относится к ошибке, возникающей при приближении к реальной проблеме, которая может быть чрезвычайно усложнена более простой моделью - например, моделированием нелинейных задач с помощью линейной модели. В общем, когда мы переоснащаем модель на заданном наборе данных, это приводит к очень меньшему смещению.

Это приводит к компромиссу смещения дисперсии.

По мере того, как мы подбираем модель к заданному набору данных, смещение имеет тенденцию уменьшаться быстрее, чем изначально увеличивается дисперсия. Следовательно, ожидаемая ошибка теста (устранимая) уменьшается. Однако в какой-то момент, когда начинается чрезмерная подгонка, есть небольшое влияние на смещение, но дисперсия начинает быстро увеличиваться, когда это происходит, ошибка теста увеличивается.

Линейная регрессия

Линейная регрессия - это статистический метод, относящийся к обучению с учителем, используемый для прогнозирования количественных ответов.

Подход простой линейной регрессии предсказывает количественный ответ ¥ на основе одной переменной X, предполагая линейную зависимость. Мы можем сказать :

¥ ≈ β₀ + β₁X

Наша работа теперь состоит в оценке β₀ и β₁, параметров / коэффициентов нашей модели на основе набора обучающих данных, таким образом, чтобы гиперплоскость (в данном случае линия) была близка к набору обучающих данных. Близость можно оценить по множеству критериев, наиболее распространенным из которых является метод наименьших квадратов.

Сумма квадрата разницы между всеми наблюдаемыми и предсказанными ответами составляет Остаточную сумму квадратов (RSS).

Проблемы линейной регрессии

  • Нелинейность отношений ответ-предиктор.
  • Соотношение терминов ошибки.
  • Непостоянная дисперсия условий ошибки.
  • Выбросы: когда фактический прогноз очень далек от предполагаемого, может возникнуть из-за неточной записи данных.
  • Точки с высоким кредитным плечом. Необычные значения предикторов влияют на линию регрессии, известную как точки с высоким кредитным плечом.
  • Коллинеарность: если две или более переменных-предикторов тесно связаны друг с другом, может быть сложно отсеять индивидуальный эффект одной переменной-предиктора .

Регрессия KNN

Регрессия KNN - это непараметрический подход к оценке или прогнозированию значений, которые не принимают форму ƒ (X). Он оценивает / предсказывает ƒ (x₀), где x₀ - точка прогноза, путем усреднения всех N₀ ответов, ближайших к x₀. Мы можем сказать:

Примечание. Если K мало, аппроксимация будет гибкой, и любое изменение данных приведет к другой аппроксимации, следовательно, для малых K дисперсия будет высокой, а смещение - низким; и наоборот, если K велико, это может замаскировать некоторую структуру данных, поэтому смещение будет высоким.

Проблема классификации

Ответы, как мы обсуждали до сих пор, не всегда могут быть количественными, они могут быть также качественными, прогнозирование этих качественных ответов называется классификацией.

Мы обсудим различные статистические подходы к классификации, включая:

  • SVM
  • Логистическая регрессия
  • Классификатор KNN
  • GAM
  • Деревья
  • Случайный лес
  • Повышение

Машина опорных векторов (SVM)

SVM или машина опорных векторов - это классификатор, который максимизирует маржу. Цель классификатора в нашем примере ниже - найти линию или гиперплоскость (n-1) измерения, которая разделяет два класса, присутствующих в n-мерном пространстве. Я написал подробную статью, объясняющую происхождение и формулировку SVM. На мой взгляд, это один из самых мощных методов в нашем арсенале статистических методов ИИ.

Логистическая регрессия

Логистическая модель моделирует вероятность того, что выходная реакция ¥ принадлежит определенной категории.

Мы можем сказать:

Применяя componendo Dividendo, мы получаем:

что есть не что иное, как шансы.

Для оценки бета-коэффициентов мы можем использовать максимальное правдоподобие. Основная идея состоит в том, чтобы оценить бета-версии так, чтобы расчетное значение и наблюдаемое значение результатов были как можно ближе. В бинарной классификации с наблюдаемыми классами 1 и 0 мы можем сказать, что функция правдоподобия будет выглядеть так:

Классификатор KNN

Классификатор KNN (K ближайших соседей) - это метод ленивого обучения, в котором обучающий набор данных представлен на евклидовой гиперплоскости, а тестовым данным присваиваются метки на основе K евклидовых метрик расстояния.

Практические аспекты

  • K следует выбирать эмпирически и желательно нечетным, чтобы избежать ситуации с ничьей.
  • KNN должен иметь как дискретные, так и непрерывные целевые функции.
  • Взвешенный вклад (например, на основе расстояния) от разных соседей можно использовать для вычисления окончательной метки.

Примечание. Производительность KNN ухудшается, когда данные имеют большой размер. Этого можно избежать, если присвоить вес самим функциям.

Влияние K на границу принятия решения

Преимущества KNN

  • Мы можем изучить сложную целевую функцию.
  • Нулевая потеря любой информации.

Недостатки KNN

  • Стоимость классификации новых экземпляров очень высока.
  • Значительные вычисления происходят во время классификации.

Обобщенные аддитивные модели

GAM представляет собой обобщенную структуру, расширяющую стандартную многомерную линейную регрессию с помощью нелинейной функции каждой переменной, сохраняя при этом ее аддитивный характер. Таким образом, все нелинейные функции могут быть независимо вычислены и добавлены позже.

Примечание. GAM, как линейная регрессия, может применяться как к количественным, так и к качественным ответам.

Деревья, Случайный лес, Усиление и Бэггинг

Деревья или деревья решений - полезные и простые методы как для регрессии, так и для классификации, включающие сегментирование пространства предикторов на простые области.

Обычно деревья решений рисуются вверх ногами, что означает, что листья находятся внизу дерева. Точки, в которых пространство предикторов разделяется, называются внутренними узлами, а конечные узлы или конечные узлы - те, которые давали прогнозы. Сегменты, соединяющие узлы, называются ветвями.

Для прогнозирования мы берем нисходящий (в первой точке все наблюдения относятся только к одному региону), жадный (лучшее разбиение выполняется на конкретном шаге) , известный как рекурсивная двоичная подгонка.

Существуют такие стратегии, как обрезка деревьев, которая решает проблему чрезмерной подгонки деревьев путем обрезки некоторых ветвей, чтобы получить небольшое поддерево.

Для задачи классификации мы либо используем индекс Джини, либо

или энтропия

для представления чистоты узла, где Pmk - доля выборок в m-й области из k-го класса.

Деревья решений по-прежнему страдают от высокой дисперсии и не могут конкурировать с другими контролируемыми подходами. Поэтому мы вводим случайное усиление лесов и бэггинг.

Упаковка

Бэггинг - это универсальный метод уменьшения дисперсии в методе статистического обучения. Основная идея состоит в том, что усреднение набора наблюдений уменьшает дисперсию. Следовательно, мы делаем случайную выборку наших данных несколько раз, и для каждой выборки мы строим дерево и усредняем все прогнозы, чтобы получить результат с низкой дисперсией.

Случайный лес

Когда в коллекции упакованных деревьев случайным образом выбираются фиксированные k предикторов из каждого дерева, имеющего всего m предикторов (k ‹m), тогда упаковка становится случайным лесом.

Это сделано потому, что большинство деревьев в мешках будут выглядеть более или менее одинаково. Следовательно, прогнозы отдельных деревьев мешков будут сильно взаимосвязаны. Следовательно, не было бы значительного уменьшения дисперсии наших выводов. Случайные леса можно рассматривать как процесс декорреляции деревьев в мешках.

Повышение

Подход с усилением - это медленный статистический метод обучения, при котором классификаторы изучаются на измененном наборе данных последовательно. В контексте деревьев решений каждое дерево выращивается с использованием информации из предыдущих деревьев. Таким образом, мы не поместимся ни в одно большое дерево.

Неконтролируемое обучение

Все вышеперечисленные методы имели набор аннотированных данных в той или иной форме. Но когда мы хотим изучить закономерности в наших данных без каких-либо аннотаций, в игру вступает неконтролируемое обучение.

Наиболее широко используемым статистическим методом для обучения без учителя является Кластеризация K-средних. Мы берем k случайных точек в нашем наборе данных и сопоставляем все другие точки с одной из K регионов на основе их близости к K выбранным случайным образом точки. Затем мы меняем K случайных точек на центроид сформированных кластеров. Мы делаем это до тех пор, пока не увидим незначительное изменение в кластере, сформированном после каждой итерации.

Есть и другие методы, такие как PCA в обучении без учителя, которые используются часто, но на этом мы заканчиваем на этом.

Далее: Введение в искусственные нейронные сети