Специалисты по обработке данных, аналитики, инженеры по обработке данных и инженеры по машинному обучению. Что они делают?

По данным Всемирного экономического форума, высокая масштабируемость, к 2025 году ожидается, что объем данных, генерируемых каждый день, во всем мире достигнет 463 эксабайт. Это миллиард гигабайт!. Google, Facebook, Microsoft и Amazon хранят не менее 1200 петабайт информации.

Чтобы использовать этот поток данных, специалисты по работе с данными стали повсеместными в компаниях и организациях по всему миру.

В этой статье я познакомлю вас с общими ролями в группе данных.

Команда данных

Группа данных обычно состоит из:

  • Аналитик данных
  • Бизнес-аналитик
  • Специалист по данным
  • Инженер по данным
  • Инженер по машинному обучению

Для каждой из этих ролей мы рассмотрим

  • Общее описание
  • Роли и обязанности
  • Навыки и умения

Если вы еще не знали, недавно мы запустили новый сервер Discord! Присоединяйтесь к сообществу bitgrit, где мы обсуждаем все, что связано с наукой о данных и искусственным интеллектом, включая наш недавно выпущенный токен криптовалюты BGR! Присоединяйтесь к серверу здесь!

Давайте нырнем!

Бизнес-аналитик

Бизнес-аналитики широко известны как посредники между менеджментом и ИТ-отделом компании.

Их основная задача - проанализировать структуру бизнеса, выявить проблемы в ней, а затем улучшить бизнес-процессы, услуги или продукты с помощью анализа данных и программного обеспечения.

Например, бизнес-аналитик может провести анализ рынка и проанализировать общую прибыльность.

Бизнес-аналитики имеют решающее значение, когда группе данных не хватает знаний в предметной области, поскольку они могут восполнить пробел и гарантировать, что бизнес принимает решения, основанные на данных.

Роли и обязанности (источник)

  • Создание подробного бизнес-анализа с указанием проблем, возможностей и решений для бизнеса.
  • Бюджетирование и прогнозирование
  • Планирование и мониторинг
  • Финансовое моделирование
  • Анализ отклонений
  • Ценообразование
  • Составление отчетов
  • Определение бизнес-требований и сообщение о них заинтересованным сторонам

Навыки и умения

  • SQL
  • Бизнес-аналитика
  • Расширенный Excel
  • Инструменты визуализации данных с помощью Quicksight, Tableau, Power BI
  • Техническое письмо и сильное общение
  • Анализ заинтересованных сторон

Аналитик данных

Основная обязанность аналитика данных - узнать, как использовать данные для ответа на вопросы и решения проблем.

Они работают с инженерами данных для доступа к источникам данных и с заинтересованными сторонами для создания релевантных и содержательных отчетов.

Как только они обнаружат скрытые закономерности в данных, они будут использовать инструменты отчетности и навыки рассказывания историй, чтобы превратить числа в осязаемую информацию.

Аналитики данных имеют решающее значение, поскольку они позволяют предприятиям максимизировать ценность своих информационных активов и использовать аналитику для обоснования стратегических бизнес-решений.

Роли и обязанности

  • Интерпретируйте данные и выявляйте тенденции и закономерности с помощью статистических методов
  • Выявление тенденций и закономерностей в данных.
  • Готовить отчеты и презентации для руководства или клиентов
  • Эффективно общайтесь с заинтересованными сторонами, чтобы понимать данные и бизнес-требования
  • Интеллектуальный анализ данных из первичных и вторичных источников
  • Определите KPI и метрики

Навыки и умения

  • Глубокие знания статистических методологий и методов анализа данных
  • SQL
  • Языки программирования, такие как Python или R
  • Инструменты для работы с электронными таблицами - Excel
  • Программное обеспечение для визуализации данных - Tableau, Looker, PowerBI
  • Облачные технологии
  • Сильные устные и письменные навыки

Специалист по данным

Основная обязанность специалиста по обработке данных - извлекать ценность из данных с помощью статистических методов и машинного обучения.

Они - мастера на все руки, которые сочетают статистику, программирование, моделирование данных и деловую хватку, чтобы находить решения для деловых вопросов.

«Специалист по данным (сущ.): Человек, который лучше разбирается в статистике, чем любой инженер-программист, и лучше разбирается в разработке программного обеспечения, чем любой статистик».

Помимо очистки и обработки данных, специалисты по обработке данных большую часть своего времени проводят, задавая вопросы, проводя эксперименты, чтобы ответить на эти вопросы, работая с заинтересованными сторонами и сообщая о своих выводах с помощью аналитиков данных.

Примером работы специалиста по данным является машинное обучение для улучшения и оптимизации клиентского опыта, внедрение AB-тестирования новых функций, таргетинг рекламы и т. Д.

Роли и обязанности

  • Работайте с заинтересованными сторонами, чтобы определить возможности использования данных компании для разработки бизнес-решений.
  • Собирайте и анализируйте данные из базы данных компании для улучшения бизнес-стратегий
  • Разработка моделей временных рядов, прогнозирования, обнаружения аномалий и поведения пользователей.
  • Определяйте KPI, создавайте автоматизированные информационные панели, отчеты и модели
  • Разработка индивидуальных моделей машинного обучения
  • Внедрить AB-тестирование и QA
  • Координируйте свои действия с инженерами машинного обучения для развертывания и мониторинга моделей машинного обучения.

Навыки и умения

  • SQL
  • Программирование - R или Python
  • Статистические методы и методы интеллектуального анализа данных
  • Инструменты распределенных вычислений - MapReduce, Hadoop, Hive, Spark
  • Временные ряды и прогнозирование
  • Причинный вывод
  • AB тестирование
  • Машинное обучение
  • Глубокое обучение

Заинтересованы в науке о данных? Подпишитесь на нашу рассылку Новости Data Science и лучшие ресурсы для изучения DS и ML!

Инженер по машинному обучению

Инженеры машинного обучения и специалисты по обработке данных во многом схожи, с той разницей, что инженеры машинного обучения сосредоточены на инженерной стороне услуг машинного обучения.

Основная цель инженера машинного обучения - исследование, проектирование, построение, развертывание и тестирование систем машинного обучения с помощью различных инструментов и фреймворков, таких как PyTorch или Tensorflow для моделирования, а также облачных технологий, таких как AWS и GCP.

Однако не в одиночку. Инженеры машинного обучения сотрудничают с специалистами по обработке данных и инженерами, чтобы находить нужные данные, проверять качество данных, исследовать и внедрять алгоритмы машинного обучения, определять показатели оценки, запускать тесты для улучшения моделей и т. Д.

Роли

  • Работайте с аналитиками данных над проектированием рабочего процесса ИИ и сквозных конвейеров.
  • Сотрудничайте с аналитиками данных для создания масштабируемых решений машинного обучения для бизнес-задач.
  • Проектирование и разработка систем машинного обучения и глубокого обучения
  • Проектирование систем машинного обучения
  • Исследование и внедрение алгоритмов и инструментов машинного обучения
  • Проведение экспериментов и тестирования машинного обучения
  • Разработка систем глубокого обучения с учетом потребностей бизнеса

Навыки и умения

  • Навыки программирования
  • Фреймворки машинного обучения - PyTorch и Tensorflow
  • Инструменты распределенных вычислений
  • Навыки программной инженерии и системного проектирования
  • Моделирование данных и архитектура данных

Инженер по данным

Аналитики и специалисты по обработке данных не смогут выполнять свою работу без данных для работы. Вот почему инженеры по обработке данных играют важнейшую роль в команде по обработке данных.

Инженеры по обработке данных несут основную ответственность за предоставление данных в удобной для использования форме командам аналитиков и машинного обучения по всей организации.

Вы спросите, как они это делают?

Они создают конвейер данных, который представляет собой набор технологий, формирующих определенную среду, в которой данные получаются, хранятся, обрабатываются и запрашиваются. ("источник")

Используя распределенные вычисления, рабочий процесс, инструменты оркестровки, потоковую обработку и другие инструменты, они обеспечивают надежную и простую в использовании систему для приема и обработки данных, помогая группе данных успешно создавать приложения, интенсивно использующие данные.

Прочтите в нашей недавней статье, почему Data Engineering популярен сейчас.

Роли

  • Создание, мониторинг и обслуживание конвейеров данных
  • Проектируйте, создавайте и запускайте высокоэффективные и надежные конвейеры данных
  • Поддерживайте работоспособность экосистемы данных за счет настройки мониторов, определения предупреждений об общих точках отказа и предоставления отзывов о качестве данных владельцам данных и деловым партнерам.
  • Создавайте хранилища озера данных и шаблоны доступа в соответствии с требованиями клиентов и стандартами именования.
  • Используйте данные и бизнес-принципы для решения крупномасштабных проблем Интернета, мобильных устройств и инфраструктуры данных.
  • Сотрудничайте с руководством, инженерами, руководителями программ и специалистами по обработке данных, чтобы понять потребности в данных.

Навыки и умения

  • SQL
  • Навыки программирования - Java, Scala, Python
  • Распределенные вычисления - Hadoop, Hive, Spark
  • Инструменты рабочего процесса и оркестрации - Airflow, Luigi
  • Потоковая обработка - Kafka
  • Инструменты ETL и ELT
  • Базы данных - SQL и NoSQL
  • Моделирование данных
  • Облачные платформы - AWS, GCP
  • Качество данных и проверка
  • Проектирование и реализация трубопроводов

Резюме

Подводя итог, вот роли данных и их обязанности.

  1. Бизнес-аналитик. Анализируйте структуру бизнеса, выявляйте проблемы в ней, а затем улучшайте бизнес-процессы.
  2. Аналитик данных - анализируйте данные, чтобы определять тенденции и закономерности, определять ключевые показатели и эффективно сообщать о них с помощью информационных панелей.
  3. Специалисты по обработке данных. Применяйте статистические методы и машинное обучение к данным, чтобы ответить на вопросы бизнеса или создать продукт.
  4. Инженер по машинному обучению - обучайте, отслеживайте и обслуживайте службы машинного обучения.
  5. Инженер данных - собирайте, систематизируйте и храните данные для компании с помощью конвейеров данных.

Это все для этой статьи, спасибо за чтение, и я надеюсь, что вы узнали что-то новое о том, что нужно для работы в сфере данных!

Если вам понравились мои работы, лучший способ поддержать меня - это стать сегодня участником Medium всего за 5 $! Вы получите полный доступ к множеству отличных статей на Medium по всем темам.

Понравилась эта статья? Вот несколько статей, которые могут вам понравиться 👇

Следите за публикацией bitgrit Data Science, чтобы узнать больше!

Найдите нас на этих платформах 👇📱