Это небольшая статья, которая поможет вам создать пайплайн на наборе данных iris. Мы начнем с импорта набора данных, и вы сможете изучить переменные и выполнить предварительную обработку набора данных, которая может включать такие шаги, как поиск пропущенных значений, кодирование категориальных значений.

Импорт всех необходимых библиотек и загрузка набора данных.

Выполнив основные шаги предварительной обработки, мы можем продолжить и построить простой конвейер модели машинного обучения для этих данных. Здесь мы попробуем три модели — логистическую регрессию, классификатор дерева решений и классификатор случайного леса, чтобы предсказать результат.

Чтобы сравнить производительность моделей, мы создадим проверочный набор (или тестовый набор). Здесь я случайным образом разделил данные на две части с помощью функции train_test_split(), так что проверочный набор содержит 30 % точек данных, а обучающий набор — 70 %. Мы также объявим структуру конвейера.

Сейчас оцениваем пайплайн по обучению и тестированию данных на трех моделях.

Запустив три модели, можно увидеть, что дерево решений и модель случайного леса обеспечивают наилучшие значения точности. Мы также можем выполнить настройку гиперпараметров случайного леса, чтобы получить лучший результат.

Настройка гиперпараметров с использованием конвейера

настройка гиперпараметров помогает повысить точность. Вы можете попробовать это самостоятельно.

Спасибо за чтение:)