Алгоритм K ближайших соседей является одним из простых в реализации алгоритмов обучения с учителем. Его можно использовать для решения задач как классификации, так и регрессии. Алгоритмы KNN были предложены Т. М. Кавером и П. Э. Хартом в 1967 году. Алгоритм используется с использованием данных из выборки, классы которой известны. Расстояние новых данных, которые должны быть включены в выборочный набор данных, рассчитывается в соответствии с существующими данными, и проверяется k числа близких окрестностей. Как правило, для расчета расстояния используются 3 типа функций расстояния:

  • "Евклидово расстояние
  • «Манхэттенское» расстояние
  • «Минковский
  • «Расстояние

Алгоритм KNN — это алгоритм, который классифицирует данные, подлежащие классификации, в соответствии с их близостью к другим данным. Например, если мы возьмем k = 3, измеряются расстояния новых входящих данных от старых данных и определяются ближайшие 3 из них. Как видно на рисунке ниже, 2 самых близких данных относятся к классу А и 1 — к классу В. В этом случае алгоритм решает, что новые входящие данные относятся к классу A.

КНН; Это один из самых популярных алгоритмов машинного обучения, поскольку он устойчив к старым, простым и зашумленным обучающим данным. Однако у него есть и недостаток. Например, он требует большого объема памяти при использовании для больших данных, поскольку он сохраняет все состояния при вычислении расстояния.

Шаги алгоритма KNN:

  • Сначала определяется параметр k. Этот параметр представляет собой количество ближайших к данной точке соседей. Например: пусть k = 2. В этом случае классификация будет производиться по двум ближайшим соседям.
  • Расстояние новых данных, которые должны быть включены в выборочный набор данных, рассчитывается по одному в соответствии с существующими данными. С помощью соответствующих функций расстояния.
  • Рассматриваются ближайшие соседи с соответствующих расстояний. Он присваивается классу из k соседей или соседей в соответствии со значениями атрибута.
  • Выбранный класс считается классом значения наблюдения, которое, как ожидается, будет оцениваться. Другими словами, новые данные помечаются.