В этом блоге мы обсудим алгоритм машинного обучения KNN, а также обсудим его работу и математическую реализацию.
Что такое KNN?
- K-ближайший сосед — это алгоритм машинного обучения под наблюдением.
- Он используется как для задач классификации, так и для задач регрессии. Однако в основном он используется для задач прогнозирования классификации в промышленности.
- Два свойства KNN могут лучше определить его:
- Алгоритм ленивого обучения — KNN — это алгоритм ленивого обучения, поскольку он не имеет специальной фазы обучения и использует все данные для обучения.
- Алгоритм непараметрического обучения — KNN также является алгоритмом непараметрического обучения, поскольку он ничего не предполагает относительно базовых данных.
Алгоритм KNN предполагает, что подобные вещи существуют в непосредственной близости. Другими словами, подобные вещи находятся рядом друг с другом. Когда возникает новая ситуация, он просматривает весь прошлый опыт и ищет k ближайших опытов, эти опыты (или точки данных) и есть то, что мы называем k ближайшими соседями.
Работа алгоритма KNN и его математическая реализация:
Давайте разберемся с работой алгоритма KNN. Чтобы реализовать алгоритм KNN, нам нужно выполнить следующие шаги:
Шаг 1. Загрузите данные.
Шаг 2. Далее нам нужно выбрать значение K, то есть ближайшие точки данных. K может быть любым целым числом.
Шаг 3. Для каждой точки в тестовых данных выполните следующие действия:
- 3.1 — вычислить расстояние между тестовыми данными и каждой строкой обучающих данных. Общие методы расчета расстояния:
Евклидово, Манхэттенское или Хэмминговое расстояние. Наиболее часто для расчета расстояния используется евклидов метод.
- 3.2. Теперь, исходя из значения расстояния, отсортируйте их в порядке возрастания.
- 3.3 — затем он выберет верхние K строк (с минимальным расстоянием) из отсортированного массива.
- 3.4 — теперь он будет назначать класс контрольной точке на основе наиболее часто встречающегося класса этих строк.
Шаг 4 – конец
Пример-
Давайте возьмем пример, когда у нас есть несколько точек данных двух разных классов. Теперь наша задача — определить положение новой точки данных, относится ли она к красной или зеленой категории.
Теперь выберите количество соседей, т.е. K = 5.
Назначьте новую точку данных категории с наибольшим количеством соседей. В нашем примере это красная категория, поэтому новая точка данных назначается красной категории.
Из приведенного выше рисунка видно, что новая точка данных относится к красной категории (т. е. к категории 1), потому что среди пяти ближайших соседей трое относятся к красной категории.
Вот как работает алгоритм KNN.
Приложения КНН
Ниже приведены некоторые области, в которых KNN может успешно применяться:
Банковская система
KNN можно использовать в банковской системе для прогнозирования того, подходит ли человек для одобрения кредита? Есть ли у этого человека характеристики, подобные неплательщикам?
Расчет кредитных рейтингов
Алгоритмы KNN можно использовать для определения кредитного рейтинга человека путем сравнения с людьми, имеющими схожие черты.
Политика
С помощью алгоритмов KNN мы можем классифицировать потенциального избирателя по различным классам, таким как «будет голосовать», «не будет голосовать».
Другими областями, в которых можно использовать алгоритм KNN, являются:
Распознавание речи, рукописного ввода, распознавание изображений и распознавание видео.
Вот и подходит к концу этот блок, надеюсь, он был вам полезен. Не стесняйтесь оставлять свои комментарии.
СПАСИБО ЗА ВАШЕ ЦЕННОЕ ВРЕМЯ