У вас есть бизнес-проблема, которую необходимо решить. В зависимости от характера этой проблемы изучите множество решений, будь то традиционное решение или более сложное решение. Следуйте инструкциям ниже.

Формирование проблемы

В зависимости от размера организации эта часть будет выполняться бизнес-аналитиком и менеджером по продукту следующим образом:
1.Определение бизнес-проблемы : проблема, которую нужно решить, должна быть ясной, а бизнес-цели должны быть максимально ясными.
Поиск решений:
1. Существуют ли какие-либо текущие доступные решения. Каковы их плюсы и минусы.

2. Предлагаете новое решение?
Если да, то какое решение?
Как оно будет реализовано (Есть ли инструменты и ресурсы, которые можно повторно использовать?
Есть ли у нас возможности и опыт для реализации этого решения) и каковы меры успеха?.

Соответствует ли эта мера успеха целям, упомянутым выше?

Есть предположения? и они будут проверены?

Получение данных

Учитывая размер и структуру компании, этой частью проекта будет заниматься инженер данных.

Примечание. автоматизируйте как можно больше, чтобы вы могли легко получать свежие данные.

  1. Из кураторского решения инженер данных с помощью других заинтересованных сторон должен иметь возможность перечислить потребности в данных, их тип и размер.
  2. Найдите и задокументируйте, где вы можете получить эти данные
  3. Учитывайте возможный тип хранилища и его емкость.
  4. Учитывайте юридические обязательства (и приобретайте/соблюдайте их), необходимые для получения и использования указанных данных.
  5. Настройте среду, которая будет использоваться для сбора данных. Это техническая рабочая область, т. е. серверы, базы данных, IDE и т. д.
  6. Получите данные. В идеале этот набор должен быть автоматизирован.
  7. Создайте хранилище данных, чтобы отделить транзакционные данные A. от аналитических данных. Это позволит другим заинтересованным сторонам манипулировать данными, не вмешиваясь в исходные данные.
  8. Убедитесь, что ваши данные соответствуют всем юридическим обязательствам, указанным выше, например, убедитесь, что личная конфиденциальная информация удалена или защищена.

Предварительная обработка данных и разработка функций, обучение модели, оценка модели

Вот тут-то и появляется специалист по данным, выполняя следующие шаги.

А. Подготовка данных и разработка функций:Это относится к алгоритмическому и творческому процессу очистки, выбора и преобразования необработанных данных в функции, которые можно использовать в обучающих моделях.

Почему подготовка данных и разработка функций?

  1. Алгоритмы ML принимают числа, а иногда и условия и требования.
  2. Подготовка данных помогает раскрыть основные закономерности/взаимосвязи, что помогает в обучении лучшей модели.
  3. Хорошие функции дают больше гибкости в настройке гиперпараметров и выборе модели.
  4. Хорошая функция позволяет обучать более простую модель, которая объяснима, проста в отладке, эффективна с точки зрения времени и вычислительной мощности.

Что необходимо предпринять.

  1. Получение информации из данных с помощью визуализации, также известной как Объясняющий анализ данных (EDA).
  2. Очистка данных. Из приведенного выше EDA вы сможете узнать больше о недостатках данных и о том, что необходимо исправить, чтобы сделать данные качественными и полными, чтобы получить максимальную точность. идеи и хорошо работающие модели.
  3. Разработка признаков:процесс извлечения признаков из необработанных данных.
  4. Выберите и обучите модель в соответствии с вашими потребностями.
  5. Оценка модели и точная настройка.

Развертывание модели, обслуживание модели и мониторинг модели

Эту часть выполняет инженер-программист или ученый-прикладник( человек, обладающий знаниями как в науке о данных, так и в области разработки программного обеспечения)

Первый шаг — развертывание в рабочей среде. Это можно сделать с помощью APIS. Затем API интегрируются в вашу систему.

Напишите код мониторинга, чтобы регулярно проверять производительность вашей системы в режиме реального времени и запускать оповещения при ее падении. Это важно для обнаружения не только внезапных поломок, но и снижения производительности.

Это довольно распространено, потому что модели имеют тенденцию «гнить» по мере изменения данных с течением времени, если модели не регулярно обучаются на свежих данных.

Счастливого обучения!