Привет!!! Если вы только начинаете знакомиться с машинным обучением, то этот пост в блоге для вас. Так как этот блог содержит краткое описание 8 наиболее популярных алгоритмов машинного обучения, которые необходимо знать. Это:

1. Линейная регрессия

2. Логистическая регрессия

3. Дерево решений

4. Случайный лес

5. Классификатор K-средних

6. K-ближайший сосед

7. SVM

8. Наивный Байес

Вы можете найти реализацию для каждого алгоритма здесь.

Линейная регрессия

Линейная регрессия — это базовый и широко используемый тип алгоритма машинного обучения с учителем. Как следует из названия, это алгоритм регрессии, что означает, что он используется для прогнозирования непрерывной целевой переменной на основе одной или нескольких входных переменных. Цель линейной регрессии — найти одну прямую линию, которая представляет отношение между входными переменными (нанесенными на ось X) и целевой переменной (нанесенными на ось Y). Затем эту линию можно использовать для прогнозирования новых точек данных.

Первоначально линия размещается случайным образом, но ее положение корректируется путем вычисления функции ошибок и потерь, чтобы минимизировать ошибку между прогнозируемыми значениями и фактическими значениями.

Формула множественной линейной регрессии, в которой используется более одной независимой переменной для прогнозирования значения зависимой переменной, выглядит следующим образом: y=β0+β1x1+β2x2+...+βnxn+ϵ

где:

  • y - прогнозируемое значение зависимой переменной
  • β0 — точка пересечения с осью y, которая представляет прогнозируемое значение y, когда все независимые переменные равны 0.
  • β1,β2,…,βn — коэффициенты регрессии, представляющие изменение y при изменении каждой независимой переменной на одну единицу.
  • x1,x2,…,xn — независимые переменные
  • ϵ — случайная ошибка.

Логистическая регрессия

Алгоритм логистической регрессии используется для задач классификации. Он используется для прогнозирования категориальной зависимой переменной с использованием заданного набора независимых переменных. Логистическая регрессия очень похожа на линейную регрессию, за исключением того, как они используются. Это также контролируемый алгоритм, здесь цель или результат должны быть категориальными или дискретными значениями, такими как 0/1, Да/Нет и т. д. Может быть любое количество категорий.

Здесь вместо прямой линии регрессии используется S-образная логистическая функция. Кривая логистической функции указывает на вероятность чего-то, например, истинного или ложного.

логистическая функция — это математическая функция, используемая для сопоставления прогнозируемых значений с вероятностями. Логистическая функция отображает любое действительное значение в другое значение в диапазоне от 0 до 1.

Синяя линия на приведенном выше графике представляет собой порог, разделяющий обе категории.

Древо решений

Дерево решений — это контролируемый метод обучения, основанный на древовидной архитектуре, используемой для выполнения задач регрессии и классификации. Здесь внутренние узлы представляют функции набора данных, ветви представляют правила принятия решений, а каждый конечный узел представляет результат.

Оно называется деревом решений, потому что оно начинается с корневого узла, который расширяется за счет дополнительных ветвей и создает древовидную структуру.

Как вы можете видеть на приведенной выше диаграмме, листовой узел — это конечный результат, который зависит от узла корня/решения, который проверяет, выполняется ли определенное условие, иначе он пройдет через другую ветвь. это очень похоже на оператор switch.

Случайный лес

Random Forest — один из самых популярных и широко используемых алгоритмов обучения с учителем. Он основан на концепции ансамблевого обучения, которая представляет собой процесс объединения нескольких классификаторов для решения сложной проблемы и повышения производительности модели. Его можно использовать как для задач регрессии, так и для задач классификации.

Здесь случайный лес делит обучающие данные на n наборов и использует n деревьев решений для создания отдельных моделей. Итак, у нас есть n моделей дерева решений, теперь мы используем голосование для прогнозирования. какой бы класс ни набрал наибольшее количество голосов, это и будет нашим прогнозируемым результатом. этот алгоритм очень эффективен в случае переобучения.

K означает кластеризацию

Кластеризация K-средних — очень популярный алгоритм обучения без учителя. Поскольку у него нет помеченных данных, он пытается сгруппировать данные в K разных кластеров на основе сходства и закономерности в данных. K здесь является предопределенным значением.

Он делает это, сначала случайным образом назначая K центроидов, а затем итеративно перемещаясь к центру соответствующего кластера. Как только центроиды достигают центра своих соответствующих кластеров, алгоритм назначит каждую точку данных ближайшему центроиду, формируя предопределенные кластеры K. Затем алгоритм вычисляет дисперсию и размещает новый центроид для каждого кластера. Этот процесс повторяется до тех пор, пока не будут найдены лучшие кластеры. Основная цель этого алгоритма — минимизировать сумму расстояний между точками данных и их соответствующими кластерами.

K Ближайший сосед

K ближайший сосед (KNN) — это алгоритм обучения с учителем. Хотя его можно использовать как для задач регрессии, так и для задач классификации, обычно он используется в качестве алгоритма классификации.

Как это работает? ну, KNN работает, находя расстояния между запросом и всеми примерами в данных, выбирая указанное количество примеров (K), ближайших к запросу, затем голосует за наиболее часто встречающуюся метку (в случае классификации) или усредняет метки (в случае регрессии). Существуют различные способы расчета расстояния между точками, наиболее часто используемым является евклидово расстояние. В качестве значения K рекомендуется использовать нечетные числа, так как это снижает вероятность получения ничьей.

Машина опорных векторов

Машина опорных векторов (SVM) — это популярный алгоритм обучения с учителем, который используется как для задач классификации, так и для регрессии, но в основном используется для задач классификации. этот алгоритм создает границу решения, которая может разделить n-мерное пространство на классы.

Может быть несколько строк/границ решений для разделения классов в зависимости от набора данных. Эта граница известна как гиперплоскость SVM. Размеры гиперплоскости зависят от объектов, присутствующих в наборе данных, что означает, что если есть 2 объекта, то гиперплоскость будет прямой линией. А если признаков 3, то гиперплоскость будет двумерной плоскостью. А точка данных, ближайшая к гиперплоскости, называется опорным вектором, эти векторы могут влиять на положение гиперплоскости.

Наивный Байес

Наивный байесовский алгоритм обучения с учителем, основанный на теореме Байеса, используется для решения задач классификации.

Алгоритм работает путем вычисления вероятностей для каждой возможной метки класса с учетом особенностей точки данных, подлежащей классификации. Метка класса с наибольшей вероятностью затем присваивается точке данных.

Чтобы решить проблему с использованием Наивного Байеса, нам нужно выполнить следующие шаги:

  1. Преобразуйте данный набор данных в частотные таблицы.
  2. Создайте таблицу правдоподобия, найдя вероятности заданных функций.
  3. Теперь используйте теорему Байеса для вычисления апостериорной вероятности.