Когда я решил пойти по новому пути в области науки о данных, моей первой работой в качестве стажера в консалтинговой компании было оценивать наборы данных для создания сценариев использования. Поскольку эта задача была немного повторяющейся, моей первой мыслью было создать Блокнот с возможностью быстро создавать модели машинного обучения и оценивать их с помощью важных релевантных показателей.
Благодаря таким библиотекам, как Scikit-learn, с небольшими знаниями в области кодирования вы можете создавать модели машинного обучения с помощью нескольких строк кода!
Конечно, в реальности повседневная работа специалистов по данным иная - я объясню почему, в конце этой статьи!
Хорошо ! Приступим к созданию наших моделей:
Мой совет - использовать платформу распространения Анаконда. Его действительно легко установить на Windows или Mac, и он предоставит вам все необходимое для создания моделей машинного обучения. После установки Anaconda вы можете запустить JupyterLab или веб-версию Notebook.
Если вам нужно альтернативное решение, не требующее установки, вы можете использовать Google Colab.
Затем вы можете посетить мой репозиторий Github и загрузить 2 блокнота. Классификации и регрессии:
1. Классификации
Моя первая записная книжка позволит вам создавать модели классификации.
Первый шаг - запустить ячейку Импорт, чтобы загрузить все библиотеки, которые я использую в своих записных книжках:
Если вам не хватает библиотеки, просто используйте:
conda install + the name of the missing library or : pip install + the name of the missing library
Теперь мы можем создать нашу первую модель. Вам необходимо импортировать набор данных - это может быть .csv или .xlsx (используйте pd.read_xcel
, если вы используете файл Excel).
Замените multiclass.csv
именем вашего .csv. Используйте полный путь к вашему файлу, если он находится в другой папке.
Если ваш .csv использует «;» в качестве разделителя просто замените sep=”;”
.
A) Классификация с автоматическим обучением
auto-sklearn - это автоматизированный инструмент машинного обучения, который очень эффективен при создании моделей с использованием лучших алгоритмов, гиперпараметров и некоторой предварительной обработки данных.
Некоторые важные параметры, которые вы должны определить перед использованием auto-sklearn:
time_left_for_this_task: по умолчанию определено как 3600 секунд - это означает, что вы позволяете авто-склеарну работать в течение одного часа, чтобы найти лучшую модель. (Уменьшите это значение, если вы спешите, или увеличьте его, если хотите потратить больше времени на поиск наилучшей возможной модели)
ensemble_size: укажите значение 1, если вы хотите использовать только одну. алгоритма в вашей модели или оставьте 50 (значение по умолчанию), если вы хотите использовать несколько алгоритмов (ансамблевых моделей).
метрика: это позволяет вам определить, на какой метрике должна сосредоточиться модель. улучшение. Чтобы увидеть все доступные метрики, нажмите здесь.
Чтобы использовать auto-sklearn, вы должны определить вашу цель: y = df[‘fetal_health’]
и заменить “fetal_heath”
на цель вашего собственного набора данных.
То же самое для X, вы должны отбросить цель: X = df.drop(“fetal_health”, axis=1)
.
Б) Алгоритмы классификации
Если у вас мало времени или вы не хотите использовать автосклеарн, вы можете использовать ячейки ниже, которые могут создавать модели с логистической регрессией, K-NN, случайным форрестом или градиентным усилением алгоритмы. Цель моей записной книжки - быстро оценить модели с помощью важных показателей классификации: Точность, Точность, Отзыв, F1, MCC, Каппа и матрица неточностей.
2. Регрессии
Мой второй блокнот для регрессий работает так же, как и для классификаций. Единственное отличие состоит в том, что у вас есть графики распределения: отображение фактического и прогнозируемого значений и гистограмма ошибок.
Важными используемыми показателями регрессии являются: R², MAE, MAPE, MSE, RMSE и максимальная ошибка.
Для чего я использую эти 2 записных книжки?
Я использую их для тестирования наборов данных моих клиентов: по результатам я сразу понимаю, нужно ли мне проводить важные работы по предварительной обработке и инженерии данных.
Благодаря инструментам автоматического машинного обучения нам больше не нужно тратить время на оптимизацию гиперпараметров.
Сегодня специалисты по анализу данных в основном занимаются предварительной обработкой и инженерией данных, чтобы получить лучшие модели (оставайтесь настроился - скоро напишу об этом статью!)
В настоящее время все больше и больше компаний используют платформы для анализа данных, чтобы позволить своим сотрудникам создавать модели машинного обучения без каких-либо знаний в области программирования. Многие люди ежедневно манипулируют данными в своей работе, но не все из них используют машинное обучение для оптимизации своего рабочего процесса. По этой причине я присоединился к MyDataModels: чтобы попытаться демократизировать инструменты машинного обучения, которые могут помочь людям быстрее и эффективнее создавать ценности.
Не стесняйтесь комментировать эту статью, чтобы задать мне любые вопросы о науке о данных - вы также можете связаться со мной в Linkedin! Впереди много других полезных статей: следите за обновлениями 🚀