Введение
Машинное обучение имеет много новых и отличных применений в области здравоохранения и может сделать диагностику пациентов намного проще и точнее, принимая во внимание, что используется правильный объем данных с точки зрения размера. и имеет смысловое отношение к проблеме.

Проблема
проблема, о которой пойдет речь в этой статье, — это проблема классификации, позволяющая определить, является ли человек диабетиком или нет, принимая во внимание такие атрибуты, как инсулин, кровяное давление, толщина кожи, ИМТ, возраст, Глюкоза, Беременность, Диабет Родословная Функция и результат должны быть независимо от того, есть ли у человека диабет или нет.

Подход
мы будем использовать классификатор K-ближайших соседей и логистическую регрессию и сравним точность обоих методов и какой из них соответствует требованиям задачи, но сначала давайте объясним, что такое K-ближайший сосед Классификатор и логистическая регрессия

K-Nearest Neighbour
K-Nearest — это алгоритм, основанный на расстоянии. Это означает, что он учитывает расстояние при изучении набора данных. K-Nearest пытается классифицировать, какая точка данных принадлежит к какому классу. , скажем, у нас есть конечное число точек данных на графике из этих точек данных с конечным числом, у нас есть пять точек данных рядом друг с другом, что подразумевает, что у них много общего, поэтому гипотетически их можно безопасно рассматривать как класс, и это то, что K-ближайший пытается классифицировать точки по классу, группируя точки, похожие друг на друга, как класс.

Вы когда-нибудь задумывались, что такое K? Может показаться неочевидным, что K является переменной и изменяется в зависимости от задачи, но наиболее распространенное значение k находится между 5 и 10, то, что K представляет собой количество точек данных, которые мы берем в внимание при формировании класса или классификации точки данных, например, если вы выбрали значение K равным 2 или 3, то точка, которую вы пытаетесь классифицировать, будет смотреть на ближайшие 2 или 3 точки и к какому классу они принадлежат, и она будет отнести к классу с наименьшим расстоянием.

Логистическая регрессия
Регрессия звучит как совершенно другая проблема. Похоже, мы ожидаем непрерывный, а не дискретный результат, но это не так. Логистическая регрессия — это классификация, но почему мы используем слово «регрессия» ?
потому что логистическая регрессия — это другое научное название функции, на которой основан алгоритм, который называется сигмовидной функцией, так что это просто соглашение об именах, поэтому, чтобы хорошо понять логистическую регрессию, нужно сначала понять сигмовидную функцию, Сигмовидная функция — это функция с выходным диапазоном от 0 до 1, поэтому она широко используется в моделях прогнозирования вероятности, таких как логистическая регрессия, когда мы пытаемся классифицировать класс, например, является ли человек диабетиком или нет. Логистическая регрессия выводит вероятность того, что случай (входные данные данные) принадлежит к определенному классу или не основан на сигмовидном алгоритме, поэтому, например, если результат данного ввода меньше 0,5, то он не диабетик, иначе он диабетик в.

Реализация
Сначала нам нужно выполнить некоторую разработку функций для набора данных, поскольку мы знаем, что KNN — это алгоритм, основанный на расстоянии, и он использует функцию расстояния, такую ​​​​как Манхэттен или Евклидов, для расчета расстояния между двумя точками, которые у нас есть. чтобы сохранить значение атрибутов под контролем и небольшой диапазон, чтобы избежать напрасной траты вычислительной мощности и сложности, поэтому мы собираемся нормализовать набор данных, поскольку у нас есть функции с разным диапазоном в природе, после чего мы ищем отсутствующие значения 0 или NaN, а иногда и пустые значения обозначается как '?' Также будьте осторожны, некоторые значения могут иметь 0 без каких-либо проблем, например, количество братьев или сестер, но в случае 0 не похоже на наш случай, когда кровяное давление в некоторых случаях мы делаем то, что называется вменением, где мы заменяем пустые значения данных соответствующими значениями, используя различные стратегии, такие как среднее значение или режим столбца отсутствующих значений, или используя регрессию для прогнозирования отсутствующего значения, затем мы используем Sklearn для отслеживания данных на knn и логистическом классификаторе, а затем мы представляем наши показатели, используя матрицу эволюции, и все

полный блокнот можно найти здесь:-
https://www.kaggle.com/mohanedmashaly/knn-classifier-vs-logistic-regression