Эта статья посвящена общему обзору того, чего ожидать от типичного пайплайна обработки данных. От формулирования вашей бизнес-проблемы до создания практических идей.

Начальная точка для решения любой проблемы науки о данных — сначала сформулировать вопросы, которые вы попросите решить с помощью данных.

Например –

Вы собрали данные из онлайн-опросов, отзывов постоянных клиентов, исторических заказов на покупку, исторических жалоб, прошлых кризисов и т. д.

Теперь, используя эти груды различных данных, вы можете попросить ваши данные ответить на следующие вопросы:

Чем больше вы задаете вопросов к данным, тем больше информации вы получите. Именно так ваши собственные данные раскрывают скрытые знания, которые могут полностью изменить ваш бизнес.

Теперь на следующей диаграмме показан типичный конвейер для решения любой проблемы науки о данных.\

  • Получение ваших данных
  • Подготовка/очистка ваших данных
  • Исследование/визуализация данных, позволяющая находить закономерности в числах
  • Моделирование данных
  • Интерпретация результатов
  • Повторное посещение/обновление вашей модели

Получение ваших данных

Наука о данных не может ответить ни на один вопрос без данных. Итак, самое главное — получить данные, а не просто данные «достоверные и надежные данные». Всё просто, мусор идёт в мусор выходит.

Как правило, при получении ваших данных должны проводиться строгие проверки. Теперь соберите все доступные наборы данных (которые могут быть из Интернета или внешних/внутренних баз данных/третьих лиц) и извлеките их данные в пригодный для использования формат (.csv, json, xml и т. д.).

Подготовка / очистка ваших данных

Этот этап конвейера очень трудоемкий и трудоемкий. В большинстве случаев данные поступают со своими собственными аномалиями, такими как отсутствующие параметры, повторяющиеся значения, нерелевантные функции и т. д. Поэтому становится очень важным, чтобы мы выполняли упражнение по очистке и брали только ту информацию, которая важна для поставленной проблемы. Потому что результаты и результат вашей модели машинного обучения настолько хороши, насколько хороши ваши вложения. Опять мусор в мусор выходит.

Цель должна заключаться в тщательном изучении данных, чтобы понять каждую особенность данных, с которыми вы работаете, выявление ошибок, заполнение пробелов в данных, удаление дубликатов или поврежденных записей, иногда отбрасывание всей функции и т. д. Опыт на уровне предметной области имеет решающее значение в на этом этапе, чтобы понять влияние какой-либо функции или значения.

Инструментарий включает:

  • Язык кодирования: Python, R
  • Инструменты для изменения данных: Python libs, Numpy, Pandas, R
  • Распределенная обработка: Hadoop, Map Reduce / Spark

Исследование / Визуализация данных

На этапе визуализации вы должны попытаться выяснить закономерности и значения ваших данных. Вы должны использовать различные типы визуализации и методы статистического тестирования, чтобы подтвердить свои выводы. Именно здесь ваши данные начнут раскрывать скрытые секреты с помощью различных графиков, диаграмм и анализа. На этом этапе желателен опыт предметной области, чтобы полностью понять визуализации и их интерпретации.

Цель состоит в том, чтобы выяснить закономерности с помощью визуализаций и диаграмм, что также приведет к этапу извлечения признаков с использованием статистики для выявления и проверки значимых переменных.

Моделирование данных (машинное обучение)

Модели машинного обучения — это универсальные инструменты. Вы можете получить доступ ко многим инструментам, алгоритмам и использовать их для достижения различных бизнес-целей. Чем лучшие функции вы используете, тем лучше будет ваша предсказательная сила. После очистки данных и выявления функций, наиболее важных для данной бизнес-задачи, использование соответствующей модели в качестве инструмента прогнозирования улучшит процесс принятия бизнес-решений.

Целью этого является углубленная аналитика, в основном создание соответствующих моделей машинного обучения, таких как прогнозная модель/алгоритм, для решения проблем, связанных с прогнозами.

Второй важной задачей является оценка и уточнение вашей собственной модели. Это включает в себя несколько сеансов оценки и циклов оптимизации. Любая модель машинного обучения не может быть превосходной с первой попытки. Вам придется повысить его точность, обучая его новым приемам данных, сводя к минимуму потери и т. д.

Для оценки точности или качества вашей модели доступны различные приемы или методы. Оценка вашего алгоритма машинного обучения является неотъемлемой частью пайплайна науки о данных. Ваша модель может дать удовлетворительные результаты при оценке с использованием метрики, например, accuracy_score, но может дать плохие результаты при оценке по другим метрикам, таким как logarithmic_loss или любой другой подобной метрике. Использование точности классификации для измерения производительности модели является стандартным способом, однако этого недостаточно для действительной оценки модели.

Таким образом, здесь вы будете тестировать несколько моделей на их производительность, частоту ошибок и т. д. и обдумывать оптимальный выбор в соответствии с вашей бизнес-задачей.

Некоторыми из часто используемых методов являются

  • Точность классификации
  • Логарифмическая потеря
  • Матрица путаницы
  • Площадь под кривой
  • Оценка F1
  • Средняя абсолютная ошибка
  • Среднеквадратическая ошибка

Инструментарий включает:

  • Машинное обучение: контролируемые/неконтролируемые алгоритмы
  • Методы оценки
  • Библиотеки машинного обучения: Python (Sci-kit Learn, NumPy)
  • Линейная алгебра и многомерное исчисление

Интерпретация результатов

Интерпретация данных больше похожа на сообщение ваших выводов заинтересованным сторонам. Если вы не можете объяснить свои выводы кому-либо, поверьте мне, все, что вы сделали, бесполезно. Следовательно, этот шаг становится очень важным.

Цель этого шага — сначала определить понимание бизнеса, а затем сопоставить его с полученными данными. Возможно, вам придется привлечь экспертов в предметной области для сопоставления результатов с бизнес-проблемами. Эксперты в предметной области могут помочь вам визуализировать ваши выводы в соответствии с бизнес-измерениями, что также поможет донести факты до нетехнической аудитории.

Инструментарий включает:

  • Знание сферы бизнеса
  • Инструменты визуализации данных: Tablaeu, D3.JS, Matplotlib, GGplot, Seaborn.
  • Коммуникация: презентация/выступление и отчетность/письмо

Повторный визит к вашей модели

Поскольку ваша модель находится в производстве, становится важным периодически пересматривать и обновлять модель, в зависимости от того, как часто вы получаете новые данные или в соответствии с изменениями в характере бизнеса. Чем больше данных вы получите, тем чаще будет обновление.

Предположим, вы работаете в транспортной компании, и однажды цены на топливо выросли, и компании пришлось поставить электромобили в свою конюшню. Ваша старая модель не имеет этой функции, и теперь вы должны обновить модель, которая включает эту новую категорию транспортных средств. В противном случае ваша модель со временем ухудшится и не будет работать так же хорошо, как и ваш бизнес. Введение новых функций изменит производительность модели либо за счет различных вариаций, либо, возможно, за счет корреляции с другими функциями.

Большинство проблем, с которыми вы столкнетесь, на самом деле являются инженерными проблемами. Даже со всеми ресурсами отличного машинного обучения большая часть влияния будет исходить от отличных функций, а не от отличных алгоритмов машинного обучения. Итак, основной подход:

  1. Убедитесь, что ваш конвейер надежен от начала до конца
  2. Начните с разумной цели
  3. Понимайте свои данные интуитивно
  4. Убедитесь, что ваш конвейер остается надежным

Итак, вот как я смотрю на пайплайн науки о данных. Если есть что-то, что вы, ребята, хотели бы добавить к этой статье, или если вы обнаружите какую-либо оплошность, не стесняйтесь оставлять сообщение и не стесняйтесь! Любая обратная связь действительно приветствуется.

Спасибо!

LinkedIn

Свяжитесь со мной в LinkedIn::