В этом блоге мы обсудим алгоритм машинного обучения KNN, а также обсудим его работу и математическую реализацию.

Что такое KNN?

  1. K-ближайший сосед — это алгоритм машинного обучения под наблюдением.
  2. Он используется как для задач классификации, так и для задач регрессии. Однако в основном он используется для задач прогнозирования классификации в промышленности.
  3. Два свойства KNN могут лучше определить его:
  • Алгоритм ленивого обучения — KNN — это алгоритм ленивого обучения, поскольку он не имеет специальной фазы обучения и использует все данные для обучения.
  • Алгоритм непараметрического обучения — KNN также является алгоритмом непараметрического обучения, поскольку он ничего не предполагает относительно базовых данных.

Алгоритм KNN предполагает, что подобные вещи существуют в непосредственной близости. Другими словами, подобные вещи находятся рядом друг с другом. Когда возникает новая ситуация, он просматривает весь прошлый опыт и ищет k ближайших опытов, эти опыты (или точки данных) и есть то, что мы называем k ближайшими соседями.

Работа алгоритма KNN и его математическая реализация:

Давайте разберемся с работой алгоритма KNN. Чтобы реализовать алгоритм KNN, нам нужно выполнить следующие шаги:

Шаг 1. Загрузите данные.

Шаг 2. Далее нам нужно выбрать значение K, то есть ближайшие точки данных. K может быть любым целым числом.

Шаг 3. Для каждой точки в тестовых данных выполните следующие действия:

  • 3.1 — вычислить расстояние между тестовыми данными и каждой строкой обучающих данных. Общие методы расчета расстояния:

Евклидово, Манхэттенское или Хэмминговое расстояние. Наиболее часто для расчета расстояния используется евклидов метод.

  • 3.2. Теперь, исходя из значения расстояния, отсортируйте их в порядке возрастания.
  • 3.3 — затем он выберет верхние K строк (с минимальным расстоянием) из отсортированного массива.
  • 3.4 — теперь он будет назначать класс контрольной точке на основе наиболее часто встречающегося класса этих строк.

Шаг 4 – конец

Пример-

Давайте возьмем пример, когда у нас есть несколько точек данных двух разных классов. Теперь наша задача — определить положение новой точки данных, относится ли она к красной или зеленой категории.

Теперь выберите количество соседей, т.е. K = 5.

Назначьте новую точку данных категории с наибольшим количеством соседей. В нашем примере это красная категория, поэтому новая точка данных назначается красной категории.

Из приведенного выше рисунка видно, что новая точка данных относится к красной категории (т. е. к категории 1), потому что среди пяти ближайших соседей трое относятся к красной категории.

Вот как работает алгоритм KNN.

Приложения КНН

Ниже приведены некоторые области, в которых KNN может успешно применяться:

Банковская система

KNN можно использовать в банковской системе для прогнозирования того, подходит ли человек для одобрения кредита? Есть ли у этого человека характеристики, подобные неплательщикам?

Расчет кредитных рейтингов

Алгоритмы KNN можно использовать для определения кредитного рейтинга человека путем сравнения с людьми, имеющими схожие черты.

Политика

С помощью алгоритмов KNN мы можем классифицировать потенциального избирателя по различным классам, таким как «будет голосовать», «не будет голосовать».

Другими областями, в которых можно использовать алгоритм KNN, являются:

Распознавание речи, рукописного ввода, распознавание изображений и распознавание видео.

Вот и подходит к концу этот блок, надеюсь, он был вам полезен. Не стесняйтесь оставлять свои комментарии.

СПАСИБО ЗА ВАШЕ ЦЕННОЕ ВРЕМЯ