Когда я решил пойти по новому пути в области науки о данных, моей первой работой в качестве стажера в консалтинговой компании было оценивать наборы данных для создания сценариев использования. Поскольку эта задача была немного повторяющейся, моей первой мыслью было создать Блокнот с возможностью быстро создавать модели машинного обучения и оценивать их с помощью важных релевантных показателей.

Благодаря таким библиотекам, как Scikit-learn, с небольшими знаниями в области кодирования вы можете создавать модели машинного обучения с помощью нескольких строк кода!

Конечно, в реальности повседневная работа специалистов по данным иная - я объясню почему, в конце этой статьи!

Хорошо ! Приступим к созданию наших моделей:

Мой совет - использовать платформу распространения Анаконда. Его действительно легко установить на Windows или Mac, и он предоставит вам все необходимое для создания моделей машинного обучения. После установки Anaconda вы можете запустить JupyterLab или веб-версию Notebook.
Если вам нужно альтернативное решение, не требующее установки, вы можете использовать Google Colab.

Затем вы можете посетить мой репозиторий Github и загрузить 2 блокнота. Классификации и регрессии:

1. Классификации

Моя первая записная книжка позволит вам создавать модели классификации.
Первый шаг - запустить ячейку Импорт, чтобы загрузить все библиотеки, которые я использую в своих записных книжках:

Если вам не хватает библиотеки, просто используйте:

conda install + the name of the missing library
or :
pip install + the name of the missing library

Теперь мы можем создать нашу первую модель. Вам необходимо импортировать набор данных - это может быть .csv или .xlsx (используйте pd.read_xcel, если вы используете файл Excel).
Замените multiclass.csv именем вашего .csv. Используйте полный путь к вашему файлу, если он находится в другой папке.
Если ваш .csv использует «;» в качестве разделителя просто замените sep=”;”.

A) Классификация с автоматическим обучением

auto-sklearn - это автоматизированный инструмент машинного обучения, который очень эффективен при создании моделей с использованием лучших алгоритмов, гиперпараметров и некоторой предварительной обработки данных.

Некоторые важные параметры, которые вы должны определить перед использованием auto-sklearn:

time_left_for_this_task: по умолчанию определено как 3600 секунд - это означает, что вы позволяете авто-склеарну работать в течение одного часа, чтобы найти лучшую модель. (Уменьшите это значение, если вы спешите, или увеличьте его, если хотите потратить больше времени на поиск наилучшей возможной модели)
ensemble_size: укажите значение 1, если вы хотите использовать только одну. алгоритма в вашей модели или оставьте 50 (значение по умолчанию), если вы хотите использовать несколько алгоритмов (ансамблевых моделей).
метрика: это позволяет вам определить, на какой метрике должна сосредоточиться модель. улучшение. Чтобы увидеть все доступные метрики, нажмите здесь.

Чтобы использовать auto-sklearn, вы должны определить вашу цель:
y = df[‘fetal_health’] и заменить “fetal_heath” на цель вашего собственного набора данных.
То же самое для X, вы должны отбросить цель:
X = df.drop(“fetal_health”, axis=1).

Б) Алгоритмы классификации

Если у вас мало времени или вы не хотите использовать автосклеарн, вы можете использовать ячейки ниже, которые могут создавать модели с логистической регрессией, K-NN, случайным форрестом или градиентным усилением алгоритмы. Цель моей записной книжки - быстро оценить модели с помощью важных показателей классификации: Точность, Точность, Отзыв, F1, MCC, Каппа и матрица неточностей.

2. Регрессии

Мой второй блокнот для регрессий работает так же, как и для классификаций. Единственное отличие состоит в том, что у вас есть графики распределения: отображение фактического и прогнозируемого значений и гистограмма ошибок.
Важными используемыми показателями регрессии являются: R², MAE, MAPE, MSE, RMSE и максимальная ошибка.

Для чего я использую эти 2 записных книжки?

Я использую их для тестирования наборов данных моих клиентов: по результатам я сразу понимаю, нужно ли мне проводить важные работы по предварительной обработке и инженерии данных.

Благодаря инструментам автоматического машинного обучения нам больше не нужно тратить время на оптимизацию гиперпараметров.
Сегодня специалисты по анализу данных в основном занимаются предварительной обработкой и инженерией данных, чтобы получить лучшие модели (оставайтесь настроился - скоро напишу об этом статью!)

В настоящее время все больше и больше компаний используют платформы для анализа данных, чтобы позволить своим сотрудникам создавать модели машинного обучения без каких-либо знаний в области программирования. Многие люди ежедневно манипулируют данными в своей работе, но не все из них используют машинное обучение для оптимизации своего рабочего процесса. По этой причине я присоединился к MyDataModels: чтобы попытаться демократизировать инструменты машинного обучения, которые могут помочь людям быстрее и эффективнее создавать ценности.

Не стесняйтесь комментировать эту статью, чтобы задать мне любые вопросы о науке о данных - вы также можете связаться со мной в Linkedin! Впереди много других полезных статей: следите за обновлениями 🚀