Понимание основных шагов, присутствующих в машинном обучении, может быть полезным, так как вы можете организовать и сосредоточить свою энергию и ресурсы на выполнении каждого шага в общем рабочем процессе ML.

Часто в машинном обучении возникает путаница в том, как построить масштабируемую и надежную модели, которые можно развертывать в режиме реального времени. Что в основном усложняет это, так это отсутствие знаний об общем рабочем процессе в машинном обучении. Понимание различных этапов рабочего процесса машинного обучения может быть особенно полезным для специалистов по обработке и анализу данных или инженеров по машинному обучению, поскольку в долгосрочной перспективе это экономит значительное количество времени и усилий. В этой статье мы рассмотрим шаги, которые обычно связаны с созданием системы машинного обучения.

Хорошее понимание принципов, необходимых для создания высокоуровневого дизайна системы ИИ, полезно, так как можно выделить свое время и ресурсы для завершения каждой части проекта. головоломку, прежде чем придумать надежную высокопроизводительную модель, которая будет запущена в производство. Каждый из шагов, описанных в статье, может быть очень полезен для проверки и мониторинга, чтобы получить наилучшую модель, развернутую в режиме реального времени. Давайте рассмотрим список шагов, которые присутствуют в жизненном цикле проекта машинного обучения.

Определение бизнес-цели или задачи

Отрасли, переходящие на ИИ, растут и, вероятно, будут расти в будущем, поскольку компании получают огромную маржу и прибыль, используя инструменты и навыки, необходимые для достижения производительности на уровне человека в различных областях. задания. Поэтому существует множество целей и задач в различных проектах, которые также задействуют возможности машинного обучения. Важно, чтобы цели проекта обсуждались и понимались до создания или извлечения данных. Определив проблему и поняв цели, можно узнать, где на самом деле применять машинное обучение, а где также сокращать его приложения, которые не нужно автоматизировать. Рассмотрим пример прогнозирования того, собирается ли клиент превысить лимит транзакций в день, на основе таких характеристик, как потраченная сумма, использование карты, время, потраченное на покупки, и различные другие факторы. Эти данные подразумевают, что нам не нужно автоматизировать этот процесс, поскольку функция "потраченная сумма" на самом деле является приблизительным показателем того, превысил ли клиент лимит транзакции или нет. В этом случае это будет значительная трата ресурсов и вычислительных мощностей для моделей машинного обучения, когда прогнозы практически не окажут никакого влияния на бизнес. Начальный шаг определения бизнес-цели или задачи может быть очень важным шагом, который следует предпринять перед запуском и выделением ресурсов, необходимых для системы ML.

Сбор данных

Хорошо, мы фактически определили бизнес-цель и имеем конкретное представление о создании лучших моделей машинного обучения для прогнозирования. Следующим важным шагом станет сбор важной информации для моделей машинного обучения, чтобы они хорошо работали по ключевым показателям эффективности (KPI). Эти индикаторы различаются в зависимости от того, является ли проблема, которую мы пытаемся решить, задачей классификации или регрессии. Понимание и оптимизация моделей машинного обучения, чтобы они хорошо работали с этими показателями, может быть важным моментом, который следует учитывать при попытке развернуть их в режиме реального времени. Всегда полезно проверить качество данных, поскольку в принципе следует учитывать, что если данные, предоставленные модели, не демонстрируют никаких отношений с целевой переменной, мы, скорее всего, получим плохую производительность моделей. по KPI, которые мы определили. Таким образом, попытка собрать наиболее подходящие данные для проблемы, которую мы пытаемся решить, может оказать существенное положительное влияние на производительность моделей.

Исследовательский анализ данных

После получения правильных данных, которые важны для прогнозов, пришло время изучить, существует ли какая-либо связь между функциями в данных и выходной переменной. Использование полезных визуализаций, таких как гистограммы, диаграммы рассеяния и графики подсчета, помогает в значительной степени понять и проанализировать данные, чтобы их также можно было достаточно хорошо объяснить заинтересованным сторонам. Кроме того, наши данные могут содержать много отсутствующих значений или выбросов. Когда в данных есть выбросы, это часто может испортить модель, считая их очень важными, а когда наша модель сталкивается с фактическими данными, она часто дает сбой при развертывании в режиме реального времени. Следовательно, можно считать полезной практикой изучение данных и понимание того, есть ли выбросы или пропущенные значения. Работа с отсутствующими значениями также имеет решающее значение, поскольку существует множество моделей машинного обучения, которые не устойчивы к отсутствующим значениям. Мы часто получаем ошибки, когда пытаемся предоставить данные, содержащие пропущенные значения. Существуют различные стратегии, которые можно использовать для обработки пропущенных значений, такие как среднее, медианное или вменение мод, а также некоторые другие.

Предварительная обработка данных

Теперь мы получили хорошее понимание общей цели проекта с ML, а также интуитивное представление о данных на основе визуализаций, созданных различными графиками. Часто бывает так, что наши данные содержат много пропущенных значений или выбросов, как обсуждалось в предыдущей части статьи. Следовательно, пришло время разобраться с этими значениями, прежде чем передавать их моделям ML для прогнозов. После выполнения этих шагов также важно выполнить стандартизацию данных, так как это может быть полезно для большинства моделей. Кроме того, необходимо учитывать наличие категориальных признаков. Их можно преобразовать в числовые признаки с учетом различных методов кодирования признаков. После выполнения всех шагов, упомянутых здесь, пришло время обучить эти модели, которые мы рассмотрим в следующей части этой статьи.

Если вам больше интересно узнать о различных шагах предварительной обработки, которые можно предпринять для данных, не стесняйтесь взглянуть на мою предыдущую статью, где я упоминаю их очень подробно. Ниже приведена ссылка.

Каковы наиболее важные этапы предварительной обработки в машинном обучении и науке о данных? | Сухас Маддали | май 2022 г. | На пути к науке о данных (medium.com)

Обучение моделей машинного обучения (ML)

Вы подготовили данные для использования в моделях машинного обучения, чтобы они могли делать полезные прогнозы. Пришло время обучить наши модели и позволить им изучить некоторые важные представления из данных, прежде чем они смогут сделать предположение о результате или целевой переменной. Мы обучаем различные модели, чтобы найти высокопроизводительную модель, которую можно использовать для развертывания на основе ключевых показателей эффективности (KPI), которые мы определили в первой части рабочего процесса машинного обучения. После обучения и настройки гиперпараметров для получения наилучшей модели мы, наконец, решили развернуть ее в режиме реального времени, что является следующим шагом в рабочем процессе.

Развертывание моделей

Мы обучили различные модели, а также выполнили настройку гиперпараметров (изменение параметров в моделях для достижения наилучшей производительности). Теперь пришло время развернуть их в режиме реального времени и оценить их производительность. Хотя у нас нет информации о том, как будет выглядеть наша выходная метка в режиме реального времени, мы должны использовать наши знания в предметной области и опыт от других, чтобы решить, следует ли наша модель действительно находится на правильном пути, и действительно ли она делает прогнозы, которые на самом деле ожидаются от нее. Любое отклонение от желаемой производительности может существенно повлиять на ценность бизнеса, которую модели фактически создают в организации. Именно здесь следует вести постоянный мониторинг модели, о чем мы поговорим в следующей части этой статьи.

Мониторинг производительности

Последним этапом рабочего процесса будет постоянный мониторинг производительности модели и проверка того, насколько хорошо она работает и соответствует ли она ожиданиям на основе ключевых показателей эффективности. Хотя можно было бы спросить, не имея выходной метки, как мы на самом деле определяем производительность. Что ж, это хороший вопрос. В этом случае мы используем наши собственные знания в предметной области и опыт других, чтобы выяснить, соответствуют ли показанные результаты тому, что обычно ожидается, когда аналитик делает свое предположение о конкретном результате. Если он совпадает с данными аналитика-человека, это означает, что наша модель работает достаточно хорошо. С другой стороны, могут быть ситуации, когда модель имеет тенденцию работать плохо после развертывания. В этом случае одним из решений было бы переобучить модель, а также изменить данные, отражающие шаблоны из настоящего, а не только из прошлого, чтобы она могла изучить новые представления. Однако, когда мы не отслеживаем производительность модели постоянно, могут возникнуть такие ситуации, как дрейф концепции или дрейф данных, которые приводят к тому, что модель работает довольно плохо во время выполнения. Следовательно, постоянный мониторинг и оценка производительности модели могут быть полезными на заключительных этапах.

Заключение

Надеемся, что после прочтения этой статьи вы получили хорошее представление об общем рабочем процессе машинного обучения с подробным описанием шагов. Изучив этапы общего рабочего процесса, можно обязательно посвятить свое время и усилия улучшению определенных аспектов проекта, требующих пристального внимания. Иногда можно уделить больше внимания обучению моделей машинного обучения, а не предварительной обработке данных. Всегда следует учитывать, что качество предоставляемых данных в значительной степени определяет качество результатов и производительность моделей. Таким образом, уделение нужного количества времени каждой части конвейера может быть очень эффективным способом разработки решений машинного обучения и получения от этого влияния на бизнес и ценности. Спасибо, что нашли время, чтобы просмотреть статью.

Ниже приведены способы, по которым вы можете связаться со мной или ознакомиться с моей работой. Спасибо.

GitHub: suhasmaddali (Сухас Маддали) (github.com)

LinkedIn: (1) Сухас Маддали, Северо-восточный университет, наука о данных | LinkedIn

Среда:Сухас Маддали — среда

Благодаря Бену Хуберману (скрыть)