Вступление:

Основным элементом проекта Data Science являются данные, без которых наука не может быть применена и, следовательно, ничего не может быть достигнуто. В связи с этим может возникнуть множество вопросов вроде -

  • Зачем нам нужны данные?
  • Какие данные требуются?
  • Как получить данные?
  • Что делать с данными?

И список продолжается. Чтобы определить этот набор вопросов, должен быть какой-то заранее определенный путь или поток. Этот поток называется жизненным циклом проекта Data Science. Весь процесс включает в себя несколько этапов, таких как очистка данных, подготовка, моделирование, оценка модели и т. Д. Это длительный процесс, который может занять несколько месяцев. Итак, очень важно иметь общую структуру, которой нужно следовать для каждой проблемы Data Science. Признанная во всем мире структура решения любой аналитической задачи называется Cross Industry Standard Process for Data Mining или CRISP-DM framework.

Жизненный цикл:

Ниже представлен жизненный цикл проекта Data Science / Machine Learning.

1. Деловое понимание

Понимание бизнеса играет очень важную роль в успехе любого проекта, поскольку весь жизненный цикл вращается вокруг бизнес-цели. Чтобы получить правильные данные, мы должны понимать бизнес. Задание вопросов о наборе данных и правильной бизнес-цели поможет значительно упростить процесс сбора данных.

2. Понимание данных

После понимания бизнеса следующий шаг - понимание данных. Этот шаг включает в себя сбор всех доступных данных. Если вы работаете над проектом в реальном времени в своей компании, вам необходимо тесно сотрудничать с бизнес-командой, поскольку они знают, какие данные присутствуют, какие данные могут быть использованы для этой бизнес-задачи и другой информации, или если вы пытаясь создать свой собственный проект по науке о данных / машинному обучению, вы сможете найти бесплатные наборы данных на многих доступных веб-сайтах.

Этот шаг включает в себя описание данных, их структуру, их тип данных и много другой информации. Изучите данные с помощью графических графиков. По сути, извлечение любой информации, которую вы можете получить о данных, просто исследуя данные.

3. Подготовка данных

После этапа понимания данных следующим этапом жизненного цикла является подготовка данных. Этот шаг также известен как Очистка данных или Обработка данных. Он включает в себя такие шаги, как выбор соответствующих данных, интеграция данных путем объединения наборов данных, их очистка, обработка отсутствующих значения, либо удаляя их, либо вменяя им соответствующие данные, обрабатывая ошибочные данные путем их удаления, а также проверяя выбросы и обрабатывая их. Создавая новые данные, извлекайте новые функции из существующих с помощью проектирования функций. Отформатируйте данные в желаемую структуру, удалите ненужные столбцы и функции. Подготовка данных занимает больше всего времени, поскольку занимает от 70% до 90% от общего времени проекта, но при этом является наиболее важным этапом всего жизненного цикла.

Исследовательский анализ данных (EDA) играет важную роль на этом этапе, поскольку обобщение чистых данных помогает идентифицировать структуру, выбросы, аномалии и закономерности, присутствующие в данных. Эти идеи могут помочь найти правильный набор функций, алгоритм, который будет использоваться для создания модели и построения модели.

4. Моделирование данных

Моделирование данных считается сердцем анализа данных. Модель берет подготовленные данные из предыдущего шага (подготовка данных) в качестве входных данных и обеспечивает желаемый результат. Этот шаг включает в себя выбор подходящего типа модели независимо от того, является ли проблема проблемой классификации, проблемой регрессии или проблемой кластеризации. После выбора модели среди различных имеющихся алгоритмов. Нам нужно настроить гиперпараметры каждой модели для достижения желаемой производительности.

В конце концов, нам нужно оценить модель, измерив точность (насколько хорошо модель работает, т.е. точно ли она описывает данные) и релевантность (отвечает ли она на исходный вопрос который призван ответить). Мы также должны убедиться, что существует правильный баланс между производительностью и универсальностью, что означает, что созданная модель не должна быть предвзятой и должна быть обобщенной моделью.

5. Развертывание модели

Модель после тщательной оценки, наконец, развертывается в желаемом формате и канале. Это последний шаг в жизненном цикле науки о данных. Каждый этап жизненного цикла науки о данных, описанный выше, должен быть тщательно проработан. Если какой-либо шаг выполнен неправильно, он, следовательно, повлияет на следующий шаг, и все усилия будут напрасными. Например, если данные не собираются должным образом, вы потеряете информацию и не сможете построить идеальную модель. Если данные не очищены должным образом, модель не будет работать должным образом. Если модель не оценена должным образом, она не сможет дать идеальный результат в реальном мире. Начиная с понимания бизнеса и заканчивая развертыванием модели, каждому этапу следует уделять должное внимание, время и усилия.

Все вышеперечисленные шаги составляют законченный проект Data Science, но это итеративный процесс, и различные шаги повторяются до тех пор, пока мы не сможем точно настроить методологию для конкретного бизнес-кейса. Python и R - наиболее широко используемые языки в Data Science.

Благодарю вас!