У вас есть бизнес-проблема, которую необходимо решить. В зависимости от характера этой проблемы изучите множество решений, будь то традиционное решение или более сложное решение. Следуйте инструкциям ниже.
Формирование проблемы
В зависимости от размера организации эта часть будет выполняться бизнес-аналитиком и менеджером по продукту следующим образом:
1.Определение бизнес-проблемы : проблема, которую нужно решить, должна быть ясной, а бизнес-цели должны быть максимально ясными.
Поиск решений:
1. Существуют ли какие-либо текущие доступные решения. Каковы их плюсы и минусы.
2. Предлагаете новое решение?
Если да, то какое решение?
Как оно будет реализовано (Есть ли инструменты и ресурсы, которые можно повторно использовать?
Есть ли у нас возможности и опыт для реализации этого решения) и каковы меры успеха?.
Соответствует ли эта мера успеха целям, упомянутым выше?
Есть предположения? и они будут проверены?
Получение данных
Учитывая размер и структуру компании, этой частью проекта будет заниматься инженер данных.
Примечание. автоматизируйте как можно больше, чтобы вы могли легко получать свежие данные.
- Из кураторского решения инженер данных с помощью других заинтересованных сторон должен иметь возможность перечислить потребности в данных, их тип и размер.
- Найдите и задокументируйте, где вы можете получить эти данные
- Учитывайте возможный тип хранилища и его емкость.
- Учитывайте юридические обязательства (и приобретайте/соблюдайте их), необходимые для получения и использования указанных данных.
- Настройте среду, которая будет использоваться для сбора данных. Это техническая рабочая область, т. е. серверы, базы данных, IDE и т. д.
- Получите данные. В идеале этот набор должен быть автоматизирован.
- Создайте хранилище данных, чтобы отделить транзакционные данные A. от аналитических данных. Это позволит другим заинтересованным сторонам манипулировать данными, не вмешиваясь в исходные данные.
- Убедитесь, что ваши данные соответствуют всем юридическим обязательствам, указанным выше, например, убедитесь, что личная конфиденциальная информация удалена или защищена.
Предварительная обработка данных и разработка функций, обучение модели, оценка модели
Вот тут-то и появляется специалист по данным, выполняя следующие шаги.
А. Подготовка данных и разработка функций:Это относится к алгоритмическому и творческому процессу очистки, выбора и преобразования необработанных данных в функции, которые можно использовать в обучающих моделях.
Почему подготовка данных и разработка функций?
- Алгоритмы ML принимают числа, а иногда и условия и требования.
- Подготовка данных помогает раскрыть основные закономерности/взаимосвязи, что помогает в обучении лучшей модели.
- Хорошие функции дают больше гибкости в настройке гиперпараметров и выборе модели.
- Хорошая функция позволяет обучать более простую модель, которая объяснима, проста в отладке, эффективна с точки зрения времени и вычислительной мощности.
Что необходимо предпринять.
- Получение информации из данных с помощью визуализации, также известной как Объясняющий анализ данных (EDA).
- Очистка данных. Из приведенного выше EDA вы сможете узнать больше о недостатках данных и о том, что необходимо исправить, чтобы сделать данные качественными и полными, чтобы получить максимальную точность. идеи и хорошо работающие модели.
- Разработка признаков:процесс извлечения признаков из необработанных данных.
- Выберите и обучите модель в соответствии с вашими потребностями.
- Оценка модели и точная настройка.
Развертывание модели, обслуживание модели и мониторинг модели
Эту часть выполняет инженер-программист или ученый-прикладник( человек, обладающий знаниями как в науке о данных, так и в области разработки программного обеспечения)
Первый шаг — развертывание в рабочей среде. Это можно сделать с помощью APIS. Затем API интегрируются в вашу систему.
Напишите код мониторинга, чтобы регулярно проверять производительность вашей системы в режиме реального времени и запускать оповещения при ее падении. Это важно для обнаружения не только внезапных поломок, но и снижения производительности.
Это довольно распространено, потому что модели имеют тенденцию «гнить» по мере изменения данных с течением времени, если модели не регулярно обучаются на свежих данных.
Счастливого обучения!