Жизненный цикл проекта по науке о данных

Проекты - это всегда отличный способ обучения в любой области. Эта статья упростит вам этот процесс, представив этапы проекта Data Science. Если вы новичок в Data Science, вы можете использовать эту статью в качестве плана действий при работе над проектами. Наука о данных - это дисциплина, в которой необходимо принимать множество микрорешения. Эти небольшие решения имеют большое влияние на стабильность и качество готового продукта.

ПОСТАНОВКА ЗАДАЧИ

Прежде чем начинать какой-либо проект Data Science или любой проект в целом, вы должны знать, почему он создается. Какую проблему это решит? Существуют ли решения проблемы?

Для проекта Data Science вас могут попросить выполнить одну или несколько из этих двух задач:

Предсказать что-нибудь.
Изучите набор данных и найдите для чего-то причины.

Необходимо четко понимать поставленную задачу. Незнание, что делать, может привести к серьезным последствиям. Как только вы ответите на эти вопросы, вы будете готовы перейти к следующему шагу.

ПОЛУЧЕНИЕ ДАННЫХ

Данные - это самый важный винтик в колесе вашего проекта Data Science Project. Качество того, что вы хотите создать, зависит от имеющихся у вас данных. Итак, как только вы получите необработанный набор данных, вы должны изучить его и получить общее представление о нем. Если это задача прогнозирования, то что следует прогнозировать? Это непрерывная переменная (проблема регрессии) или категориальная переменная (проблема классификации)?

После ответа на эти вопросы, если это проблема классификации, мы должны убедиться, что есть примерно равные объемы данных для каждого класса.

Пример. Допустим, мы создаем классификатор «кошка-собака» со 100 изображениями в наборе данных. Есть 80 изображений кошек и 20 изображений собак. Если мы воспользуемся этим набором данных, то модель, очевидно, будет смещена в сторону кошек.

В таких случаях нам необходимо сбалансировать набор данных. Несбалансированные наборы данных могут привести к очень предвзятым моделям, поэтому с ними следует иметь дело в первую очередь.

ОЧИСТКА ДАННЫХ

Имея под рукой сбалансированный набор данных, нам нужно очистить данные. Очистка данных важна, потому что модели машинного обучения лучше всего работают с чистыми данными.

Что включает в себя очистка данных?

Обработка отсутствующих значений или значений NaN
Преобразование категорий в числа
Работа с выбросами в наборе данных
Масштабирование объектов в наборе данных

Что ж, очистка данных - обширная тема, и она может включать в себя гораздо больше задач в зависимости от набора данных. Это только самые распространенные работы по очистке данных.

ИССЛЕДОВАТЕЛЬСКИЙ АНАЛИЗ ДАННЫХ

Это последний шаг для задач анализа данных. На этом этапе специалисты по данным с помощью чисел, таблиц и визуализаций пытаются доказать взаимосвязь между различными переменными. Это делается по нескольким причинам:

Чтобы найти причину того, что происходит
Чтобы найти функции, которые больше всего влияют друг на друга
Для создания новых функций, которые влияют на целевую переменную даже больше, чем существующие функции

Исследовательский анализ данных помогает специалистам по данным понять, какие функции им следует учитывать при моделировании. Хотя это очень долгий процесс, объяснять здесь особо нечего.

СОЗДАНИЕ МОДЕЛЕЙ

В терминологии машинного обучения и науки о данных модель - это в основном то, что обучается на обучающих данных, и мы должны добиться от нее хорошей производительности, прежде чем использовать ее для прогнозов.

Существует множество библиотек машинного обучения, таких как Scikit-Learn, PyTorch, Tensorflow и Keras, среди прочих, которые предоставляют множество вспомогательных функций для создания моделей. Существует набор параметров, называемых гиперпараметрами. Это параметры модели, которые не обучаются (не зависят от данных обучения).

Вот простой шаблон, которому вы можете следовать при создании моделей:

Исходя из данных и задачи, выберите алгоритм, подходящий для задачи.
Создайте модель на основе этого алгоритма
Обучите модель на обучающем наборе и подходящей метрике производительности
Проверить работоспособность модели на основании тестовых данных

Эти четыре шага можно повторять, пока мы не получим достаточно хорошую модель.

НАСТРОЙКА ГИПЕРПАРАМЕТРА

Настройка гиперпараметров включает в себя изменение необучаемых параметров модели, чтобы увидеть, можно ли повысить производительность модели. Обычно это делается путем объявления набора значений для каждого гиперпараметра и последующей проверки производительности модели для каждой перестановки набора значений. Этот поиск помогает нам найти лучшие значения каждого гиперпараметра из объявленного нами ранее набора.

РАЗВЕРТЫВАНИЕ

Наконец, у нас есть развертывание. Если вы выполнили все вышеперечисленные шаги, у него есть модель, которая хорошо работает по некоторым показателям производительности, но ее нельзя использовать, поскольку это просто файл кода. Должен быть создан какой-то интерфейс, чтобы пользователи могли вводить и получать результаты. Мобильные приложения, веб-приложения и создание API-интерфейсов - обычные способы развертывания. Во-первых, нужно сохранить лучшую модель. Затем необходимо создать интерфейс, чтобы пользователь мог вводить данные. Затем мы должны взять входные данные и вызвать сохраненную модель, чтобы предсказать результат, который должен быть отображен обратно в интерфейсе. Для развертывания появилось несколько фреймворков, некоторые из них - Flask, Django, FastAPI и т. Д.

ЗАКЛЮЧЕНИЕ

Я надеюсь, что эта дорожная карта поможет вам понять жизненный цикл проекта Data Science. Надеюсь, вы узнали что-то новое.