Вы можете следить за этим введением в Kaggle, так что вы увидите, как это сделать с практической точки зрения. Это должно быть простое введение в логистическую регрессию для набора данных по радужной оболочке, начального набора данных, который содержит информацию о длине и ширине лепестка и листочков чашелистика, а также метку, к какому виду он принадлежит.

Здесь вы видите три вида ирисов:

В нашем наборе данных одна строка выглядит так:

Логистическая регрессия относится к контролируемому машинному обучению, потому что мы используем помеченный набор данных для обучения модели.

В модели обучения с учителем алгоритм обучается на помеченном наборе данных, предоставляя ключ ответа, который алгоритм может использовать для оценки своей точности на данных обучения. Модель без учителя, напротив, предоставляет немаркированные данные, которые алгоритм пытается понять, извлекая особенности и шаблоны самостоятельно. Nvidia

Подготовка

Я хочу сосредоточиться на модели, поэтому предполагаю, что вы импортировали и очистили данные. После импорта данных с data = pd.read_csv('../input/Iris.csv') важно…

  • … Чтобы показать первые записи фрейма данных с data.head()
  • … Чтобы проверить типы данных во фрейме данных с помощью data.info()
  • … Для просмотра данных с data.describe(), чтобы увидеть среднее значение, стандартное отклонение и квартили для каждой строки
  • … Для подсчета значений по видам data['Species'].value_counts()

Я также заменил метки Iris-versicolor и Iris-virginica на «Not Setosa», чтобы упростить задачу до двух категорий. Iris-setosa я заменил на Setosa.

Визуализация

Эти два графика показывают нам, как легко мы можем провести линию между двумя метками и разделить их, просто из-за сравнения ширины сепала и длины сепала.

или ширина лепестка и длина лепестка

Похоже на довольно простую проблему. Но что, если мы не объединим две категории разноцветный и виргинский.

Похоже, это уже не будет так просто. Но об этом позже ...