В наши дни очень часто можно встретить эти термины — наука о данных, искусственный интеллект, машинное обучение, глубокое обучение и многое другое. Как следствие, на нашем пути появилось множество различных ролей в науке о данных, но сложно получить общее представление о том, чем они отличаются, и какие навыки для них требуются.

Цель этой статьи — представить краткие сведения о различных должностях, обязанностях каждой должности, а также о необходимых навыках/квалификациях и предполагаемой заработной плате, получаемой на различных должностях в области науки о данных. Тогда давайте начнем.

Основная дилемма:

Есть четыре основные рабочие роли:

  1. Инженер данных
  2. Аналитик данных
  3. Специалист по данным
  4. ML инженер

Текущие тенденции по этим четырем должностям согласно Google Trends.

Но знаете ли вы, какой из них является правильным для начала вашей карьеры и почему вы должны выбрать один, а не другой? Давайте углубимся в детали

Инженер данных:

Мы живем в эпоху информационной революции. Известные предприятия теперь основывают свои навыки принятия решений на выводах, полученных в результате анализа данных. Во многих организациях инженеры по обработке данных — это первые сотрудники в команде по работе с данными. Инженеры данных — это те, кто собирает данные с других веб-сайтов с помощью веб-скраппинга, API или устройств IoT и загружает данные в хранилище данных. Примеры систем хранения данных включают Amazon Redshift или Google Cloud. Наконец, инженеры данных создают процессы ETL (извлечение, преобразование и загрузка), чтобы убедиться, что данные попадают в хранилище данных.

Например, подумайте о модели машинного обучения системы рекомендации песен, которую необходимо развернуть как часть приложения компании, чтобы сделать приложение лучше. Каждый раз, когда пользователь воспроизводит песню, создается новый фрагмент данных. Инженер данных определяет, как собирать эти данные, какие типы метаданных следует добавлять к каждому клику и как хранить данные в удобном для доступа формате.

Важнейшие задачи, входящие в должностную роль Data Engineer:

  • Собирайте данные с помощью веб-скрейпинга, API или устройств IoT.
  • Поместите собранные данные в хранилище данных.
  • Управление процессом ETL (извлечение, преобразование и загрузка)
  • Представляем новые инструменты управления данными и модели данных для легкого доступа к данным.

Технические аспекты:

  • Опыт работы с инструментами для работы с большими данными: Hadoop, Spark, Kafka и др.
  • Опыт работы с реляционными базами данных SQL и NoSQL, включая Postgres и Cassandra.
  • Опыт работы с облачными сервисами AWS.
  • Опыт работы с объектно-ориентированными/объектно-функциональными языками сценариев, такими как Python, Java, C++, Scala и т. д.

Сценарий работы:

Ежегодный рост зарплаты инженеров данных составляет около 9 %. Средняя начальная зарплата инженера по большим данным может варьироваться от 6 000 000 до 10 000 000 индийских рупий. Согласно опросу, проведенному Internal Revenue Service (IRS), самая высокая зарплата делает инженеров по большим данным 5% самых высокооплачиваемых должностей. В настоящее время все большее число предприятий начали использовать данные в своих проектах, в то время как другие уже составили планы по включению данных в свои будущие проекты. Например, в спортивной индустрии наблюдается повышенный спрос на инженеров данных для отслеживания показателей потребителей, таких как поведение в социальных сетях, привычки покупать билеты, демография, интересы бренда и психографические профили.

Аналитик данных:

Аналитики данных выполняют исследовательский анализ данных, проводят статистический анализ и создают визуализацию на основе анализа и далее выполняют подходящие алгоритмы для обучения модели. Аналитики реализуют проектирование признаков, выбор признаков, очищают данные, используя языки программирования, электронные таблицы и инструменты бизнес-аналитики для описания и классификации данных.

Например, в случае интеграции модели с музыкальными рекомендациями аналитик данных создаст визуализацию, чтобы отслеживать, какого исполнителя играют чаще всего, жанры песен, которые играют чаще всего, и сколько денег зарабатывает компания. .

Важнейшими задачами, включенными в должностную роль аналитика данных, являются:

  • Управление основными данными, включая создание, обновление и удаление.
  • Обработка конфиденциальных данных и информации в соответствии с инструкциями.
  • Создавайте отчеты и анализ.
  • Управление и проектирование среды отчетности, включая источники данных, безопасность и метаданные.
  • Предоставление экспертных знаний в области структур хранения данных, интеллектуального анализа данных и очистки данных.

Технические аспекты:

  • Язык структурированных запросов (SQL)
  • Интеллектуальный анализ данных, очистка и обработка
  • R или Python-статистическое программирование (библиотека Numpy, pandas)
  • Навыки визуализации и представления данных (Tableau, Power BI, морская библиотека на python)
  • SQL
  • Рассказ о данных

Сценарий работы:

Более 97 000 должностей аналитиков в Индии остаются вакантными из-за нехватки талантов. 11 лакхов — средняя зарплата в области аналитики и обработки данных. Сектор BFSI имеет максимальный спрос на навыки работы с данными в Индии, за ним следуют электронная коммерция и телекоммуникации. Python по-прежнему является предпочтительным инструментом среди аналитиков данных и специалистов по данным, и это также отражается на рынке найма: 17% вакансий указывают язык в качестве основной способности.

Специалист по данным:

Это считается самой сексуальной работой 21 века. Они работают на основе визуализации, предоставленной группой аналитиков данных, для создания и оптимизации классификаторов с использованием методов машинного обучения.

«Ученые по данным знают о статистике больше, чем любой разработчик программного обеспечения, и знают о разработке программного обеспечения больше, чем любой статистик», — Джош Уиллс, директор Slack.

Например, специалист по данным будет собирать данные об исполнителях, музыкальных жанрах и обучать машинное обучение рекомендовать песни/альбомы для каждого пользователя.

Важнейшими задачами, включенными в должностную роль Data Scientist, являются:

  • Тщательно очистить данные, чтобы отбросить ненужную информацию и подготовить данные для предварительной обработки и моделирования.
  • Выполните исследовательский анализ данных (EDA), чтобы определить, как обрабатывать отсутствующие данные.
  • Открытие новых алгоритмов для решения проблем и создание программ для улучшения текущих стратегий.
  • Выполнение проектирования функций, выбор функций для реализации аналитических методов, машинного обучения и статистических методов для подготовки данных для использования в прогнозном и предписывающем моделировании.

Технические аспекты:

  • Программирование
  • Применение алгоритмов и библиотек машинного обучения (Scikit Learn, Tensorflow, PyTorch)
  • Визуализация данных и отчетность
  • Статистический анализ и математика
  • Эффективное общение
  • Навыки разработки программного обеспечения
  • Интеллектуальный анализ данных, очистка и преобразование

Сценарий работы:

Специалисты по данным также могут работать аналитиками данных, что делает специалистов по данным одной из самых высокооплачиваемых профессий. Согласно отчету LinkedIn, специалисты по данным заняли первое место среди самых перспективных вакансий в США в 2019 году. Согласно тому же отчету, базовая зарплата специалистов по данным в этом году составляла в среднем 130 000 долларов США. Кроме того, количество вакансий увеличилось на 56% по сравнению с прошлым годом. В настоящее время по всей стране открыто более 4 000 вакансий специалистов по обработке и анализу данных. Неудивительно: специалисты по обработке и анализу данных занимают первые места в рейтинге лучших вакансий в США благодаря высокому спросу, высоким зарплатам и высокая удовлетворенность работой. Кроме того, журнал Analytics India Magazine прогнозирует, что спрос на специалистов по науке о данных в Индии вырастет в семь раз в течение следующих семи лет, а рынок достигнет 20 миллиардов долларов США.

Инженер по машинному обучению:

Это заключительный этап цикла проекта по науке о данных, на котором созданная модель развертывается для интеграции в приложение или веб-сайт. Инженеры по машинному обучению не являются экспертами ни в науке о данных, ни в веб-разработке. В идеале они используют оба знания для развертывания окончательной модели. Работа инженера по машинному обучению заключается в преодолении разрыва между работой специалиста по данным и производственной средой. Инженер по машинному обучению больше занимается развертыванием готовых к производству моделей.

Например, инженер по машинному обучению развертывает модель машинного обучения рекомендателя песен в готовой к производству среде. Он включает в себя различные типы инженерных работ, таких как интеграция модели в программную систему, оптимизация модели для повышения производительности и масштабируемости, а также ее переобучение с использованием новых данных, мониторинг и обслуживание системы машинного обучения.

Важнейшими задачами, включенными в должностную роль инженера по машинному обучению, являются:

  • Удаление ошибок из наборов данных и поиск правильных методов представления данных
  • Развертывание модели машинного обучения для интеграции в приложение/веб-сайт
  • Масштабирование и оптимизация модели для производства
  • Мониторинг и обслуживание развернутых моделей

Технические аспекты:

  1. Вероятность и статистика
  2. Моделирование и оценка данных
  3. Применение алгоритмов и библиотек машинного обучения (Tensorflow, Pytorch)
  4. Программная инженерия и системный дизайн (AWS, Azure)

Сценарий работы:

Средняя зарплата новичка составляет почти 13 лакхов и растет для инженера по машинному обучению.

Согласно опросу, проведенному ранее в этом году, это одна из самых модных и крутых профессий.

Инженер по машинному обучению в США получает годовую зарплату около 140 тысяч долларов. Это около 50 000 фунтов в Великобритании и около 13 лакхов в Индии.

ВЫВОД:

Я надеюсь, что у вас есть краткое представление об этих профессиях. Теперь все дело в том, чтобы выбрать правильную профессию, чтобы начать свою карьеру, которая соответствует вашим навыкам и интересам. Ожидается, что рост карьерных возможностей в области Data Science будет продолжаться еще долгое время. По мере того, как данные пронизывают нашу жизнь, а компании пытаются разобраться в генерируемых данных, крупные и малые предприятия будут продолжать добиваться квалифицированных специалистов по данным.

Всего наилучшего в карьере и поиске работы в сфере Data Science!