НАУКА ДАННЫХ

Что подходит вам как специалисту по данным?

Откройте для себя свое место и выберите правильное направление

Наука о данных стремится понять мир природы, который по своей природе очень сложен. Но как? Анализировать данные, значительный объем данных (так называемые большие данные), пытаться понять их и использовать знания и опыт для принятия решений. и решать проблемы. Чтобы лучше понять, что такое опыт в области науки о данных и машинного обучения, ознакомьтесь с моей вводной статьей о машинном обучении и искусственном интеллекте (ссылка ниже).



Как специалист по данным, первое, что нужно знать, — это жизненный цикл данных, который состоит из этапов.

Сбор данных

В настоящее время сбор данных является легкой задачей. Сбор данных — это действие по сбору данных из различных источников: веб-страницы, новости, социальные сети, отчеты, графики, таблицы и т. д. — все это источники необработанных цифровых данных, готовые к использованию для всех заинтересованных.

В этой области хороший специалист по данным развивает врожденное любопытство к миру; он ориентирован на данные, поэтому тратит огромное количество времени на сбор данных, чтобы ответить на интересующие вопросы. Требуемые навыки:

  • подумайте, какие данные необходимы для решения проблемы, в которой вы участвуете
  • знание того, как собирать данные из различных источников и как структурировать их
  • знание некоторых инструментов или приложений для сбора данных и ETL (Extract, Transform and Load)

Очистка данных

После сбора необработанные данные в большинстве случаев оказываются «беспорядочными».

Очистка данных — сложная задача, которая включает в себя:

  • обнаружение и исправление поврежденных или неточных данных из-за частичного или отсутствующего сбора данных
  • проверка данных и оценка пропущенных значений на основе информации о соответствующих явлениях зависела от проблемы.
  • улучшение данных за счет гармонизации и нормализации данных
  • преобразование данных для получения единообразия и сопоставимости значений в наборе данных

Исследовательский анализ данных

Исследовательский анализ данных (EDA) — это набор методов, позволяющих увидеть, что данные могут нам сказать. В EDA мы используем как математические модели, так и здравый смысл, чтобы справиться со значимостью наших данных.

Как специалисты по данным, мы должны знать, чего ожидать от данных, которые мы собираем, должны сформулировать гипотезу и «заполнить пробел» в имеющейся у нас информации.

Есть много инструментов, которые помогут нам:

  • Описательная статистика: иметь представление данных в виде таблиц, графиков, суммирования значений и т. д.
  • Выводная статистика: собрать нашу коллекцию данных, которая является неполным представлением реальности, чтобы сделать вывод, сделать предположения об основных характеристиках явлений.
  • Глубокое понимание окружающей среды, то есть контекст проблемы, которую мы пытаемся решить с помощью методов науки о данных.

Стоит напомнить, что в классическом машинном обучении (ML) этот этап жизненного цикла данных зависит от нас, специалистов по данным. В глубоком обучении (ГО) и даже в большей степени в обучении с подкреплением (ОЛ) модель, машина, должна справиться с этим. В DL на этапе обучения алгоритм изучает характеристики предоставленных данных и адаптируется к ним. В RL среда является еще более активной частью процесса обучения.

Построение модели

Построение модели является фундаментальной частью процесса машинного обучения. Когда мы создаем модель, мы можем затем обучить машину изучать шаблоны на наших данных (обучающий набор), чтобы предсказывать неизвестные или будущие данные.

При построении модели мы пытаемся предсказать результаты анализа.

Опять же, здесь необходимы некоторые навыки:

  • применить правильную схему обучения к нашим данным для решения конкретной проблемы (регрессия, классификация, ассоциация, кластеризация и т. д.)
  • тестировать и оценивать результаты обучения модели с помощью определенных показателей для вычисления производительности
  • объединить множество методов и моделей, чтобы получить лучший результат с точки зрения прогнозирования, надежности модели и т. д. (моделирование ансамбля)

Развертывание модели

Когда наша модель готова, и мы получаем хорошие результаты на обучающем и тестовом наборе (этап обучения и оценки), пришло время запустить ее в производство. Это финальный этап, когда мы получаем результаты из данных, для бизнеса, учебы, исследований, а может быть и для развлечения!

Нам нужно знать:

  • как развернуть нашу модель на различных готовых к использованию современных платформах. Подумайте, например, о таких инструментах и ​​библиотеках Python, как NumPy, pandas, scikit-learn (ML), TensorFlow Keras, PyTorch (DL), инструментах openai для RL и т. д.
  • как получить результаты в производственной среде для оптимизации, обнаружения аномалий, автоматизации, прогнозирования и т. д.
  • как подвести итоги заинтересованным сторонам

Ну и что дальше?

До сих пор мы говорили о процессе. Но кто нужен на каждом шагу? Давайте проясним концепции и роли.

Для начала подытожим весь процесс картинкой

Специалист по данным

Как видите, от специалиста по обработке и анализу данных ожидают всего, от сбора данных до развертывания модели; он должен знать о реальных проблемах, и он должен знать множество техник на каждой стадии процесса. Итак, необходимые навыки:

  • понимание того, как делать SQL и другие методы запроса наборов данных
  • глубокое понимание алгебры, статистики и теории множеств для полезных методов моделирования данных
  • знание Python, R, Java, C++ или других языков для очистки данных, обработки данных, EDA и визуализации.
  • способность выбирать или комбинировать методы моделирования, подходящие для решения задач, на основе данных и ожидаемых результатов
  • уметь совмещать конвейер данных в производственной среде с методами визуализации и представления результатов, в виде веб-приложения, отчетов, команд машинам и т.д.

Инженер данных

инженер данных больше занимается сбором и очисткой данных. На этой должности мы должны быть очень опытными в методах запросов к базам данных и данных, а также уметь выполнять ETL (извлечение, преобразование и загрузка) данных из различных источников. Затем мы должны знать, как очищать данные, работать с нулевыми или противоречивыми значениями и использовать многие другие методы, чтобы создать прочную основу источников для следующих моделей машинного обучения.

Аналитик данных

Аналитик данных много работает над очисткой данных и EDA. Он владеет статистикой, как описательной, так и выводной, и всегда пытается выжать каждый бит информации из данных. Его роль имеет решающее значение для моделирования данных и создания надежных моделей, которые могут реально отражать поведение среды. На пути науки о данных к знаниям, на мой взгляд, это может быть первым шагом, а затем мы можем исследовать другие фазы процесса.

Инженер по машинному обучению

Инженер по машинному обучению знает, как максимально эффективно использовать данные, используя различные методы и алгоритмы машинного обучения. он владеет моделями машинного обучения, оптимизацией гиперпараметров, оценкой и метриками и находится в курсе последних исследований в этой области. Кроме того, он также знает, как масштабировать и развертывать модели в производственных системах.

Как видите, существует множество путей к науке о данных. Каждый, кто заинтересован в том, чтобы быть вовлеченным в эту область, по моему мнению, должен осознавать, каким может быть его путь к лучшему пониманию данных и методов машинного обучения для новой точки зрения на реальность и каков может быть его вклад в мир. прогресс и путь в будущее.

Я надеюсь, вам понравится эта статья, и вы можете оставить комментарий и подписаться на мои будущие публикации здесь, на Medium. Спасибо всем и до скорой встречи.