Это небольшая статья, которая поможет вам создать пайплайн на наборе данных iris. Мы начнем с импорта набора данных, и вы сможете изучить переменные и выполнить предварительную обработку набора данных, которая может включать такие шаги, как поиск пропущенных значений, кодирование категориальных значений.
Импорт всех необходимых библиотек и загрузка набора данных.
Выполнив основные шаги предварительной обработки, мы можем продолжить и построить простой конвейер модели машинного обучения для этих данных. Здесь мы попробуем три модели — логистическую регрессию, классификатор дерева решений и классификатор случайного леса, чтобы предсказать результат.
Чтобы сравнить производительность моделей, мы создадим проверочный набор (или тестовый набор). Здесь я случайным образом разделил данные на две части с помощью функции train_test_split(), так что проверочный набор содержит 30 % точек данных, а обучающий набор — 70 %. Мы также объявим структуру конвейера.
Сейчас оцениваем пайплайн по обучению и тестированию данных на трех моделях.
Запустив три модели, можно увидеть, что дерево решений и модель случайного леса обеспечивают наилучшие значения точности. Мы также можем выполнить настройку гиперпараметров случайного леса, чтобы получить лучший результат.
Настройка гиперпараметров с использованием конвейера
настройка гиперпараметров помогает повысить точность. Вы можете попробовать это самостоятельно.
Спасибо за чтение:)