Эта статья посвящена анализу набора данных с использованием машинного обучения, легкого для начинающих.

Мы знаем, что машинное обучение очень сложно для начинающих. Мы не знаем, какие типы моделей следует использовать для анализа данных.

В этой статье мы собираемся использовать набор данных машинное профилактическое обслуживание и легко анализировать его с помощью машинного обучения. Мы будем использовать Pycaret для построения нашей модели прогнозирования. Используемый нами набор данных доступен на GitHub здесь.

Начнем с нашей задачи

Прежде чем мы начнем, установите Pycaret в среде вашего ноутбука.

Импорт библиотек импорта

Далее нам нужно импортировать библиотеки. После этого мы читаем файл данных, который собираемся анализировать. Файл имеет формат .csv.

Вывод приведенного выше кода:

После проверки мы создаем круговую диаграмму, используя Matplotlib для типа отказа. Мы заметили, что в 96,5% случаев отказов не бывает.

Затем мы используем библиотеку Seaborn для создания гистограммы температуры воздуха и процесса.

После того, как мы это сделаем, мы используем совместный график, чтобы нарисовать график температуры воздуха и процесса с двумерными и одномерными графиками. Библиотека предоставляет удобный интерфейс для класса JointCrid с несколькими стандартными видами графиков. Они выглядят так.

Мы используем Seaborn, чтобы нарисовать линейную диаграмму скорости Torque, потому что мы хотим знать скорость его вращения.

На этот раз мы будем использовать уникальную библиотеку PyCaret. Это библиотека машинного обучения с открытым исходным кодом на Python, которая позволяет пользователям перейти от подготовки своих данных к развертыванию своей модели за считанные минуты в выбранной ими среде ноутбука.

Прежде чем использовать PyCaret, нам нужно удалить UDI и Product ID из набора данных.

Мы используем «pycaret.classification» для настройки исходного набора данных, цели и идентификатора сеанса. После этого мы сравниваем любые модели. Мы заметили, что модель Random Forest имеет самую высокую точность. Тогда воспользуемся.

Давайте создадим модель с помощью rf (классификатор случайного леса). Кроме того, нам нужно улучшить его с помощью tune_model. Это функция, которая автоматически настраивает модель с помощью гиперпараметров.

После того, как мы это сделаем, давайте создадим графики для анализа модели.

Мы почти закончили! Мы завершаем модель и прогнозируем ее с помощью исходного набора данных. Давайте прочитаем окончательный набор данных. Как мы видим, он добавил метки и оценки.

Заключение

В этой статье мы узнали, как легко анализировать набор данных с помощью машинного обучения. Вам лучше использовать метод, если вы не имеете ни малейшего представления.

Моя специальность не наука о данных, но мне интересно использовать Python для анализа и разработки платформы. Кроме того, я хочу поделиться своими знаниями.

Надеюсь, вам понравилась статья.