В чем основные различия и сходства между специалистами по обработке данных и аналитиками данных? Читайте ниже, чтобы ознакомиться с изложенным анализом.

Оглавление

  1. Вступление
  2. Специалист по данным
  3. Аналитик данных
  4. Сходства
  5. Различия
  6. Резюме
  7. использованная литература

Вступление

Принимая во внимание, что области науки о данных и машинного обучения разделяют путаницу между своими должностными инструкциями, работодателями и широкой публикой, разница между наукой о данных и аналитикой данных более разделима. Тем не менее, есть еще сходства, а также ключевые различия между этими двумя областями и должностями. Некоторые сказали бы, что для того, чтобы стать специалистом по обработке данных, роль аналитика данных является необходимым условием для получения работы в качестве специалиста по данным.

Эта статья призвана пролить свет на то, что значит быть специалистом по данным и аналитиком данных, от профессионала в обеих областях.

Когда я учился на специалиста по данным, как рабочий аналитик данных, я понял, что теория науки о данных сильно отличается от теории анализа данных. Это не означает, что наука о данных не использует те же инструменты и языки программирования, что и аналитика данных. Можно также возразить, что наука о данных - это форма анализа данных, потому что в конечном итоге вы работаете с данными - трансформируете, визуализируете и приходите к заключению для практических изменений. Итак, если они так похожи или одно находится под другим, зачем писать статью об этих двух популярных областях? Причина в том, что люди, которые приходят в любую из сфер, могут узнать отсюда - во что они войдут с какой-либо карьерой - или, если люди в целом любопытны, и для дальнейшего обсуждения. Ниже я опишу основные сходства, различия и примеры того, что значит быть специалистом по данным или аналитиком данных.

Специалист по данным

Exclaimer - этот раздел DS содержит только некоторую информацию, которую я собрал из моей предыдущей статьи о сравнении науки о данных и машинного обучения, а также новую информацию [3]:



Науку о данных можно описать как область автоматизированной статистики в форме моделей, которые помогают в классификации и прогнозировании результатов. Вот основные навыки, которые необходимы для работы в сфере данных:

  • Python или R
  • SQL
  • Блокнот Jupyter
  • Алгоритмы / моделирование

Python - по моему личному опыту, я считаю, что большинство компаний ищут Python больше, чем R в качестве основного языка программирования. В должностных инструкциях может быть указано и то, и другое; однако большинство людей, с которыми вы работаете, например инженеры по машинному обучению, инженеры по обработке данных и инженеры по программному обеспечению, не знакомы с R. Поэтому, я считаю, что для того, чтобы быть более целостным специалистом по данным, Python принесет вам больше пользы.

SQL на первый взгляд может показаться скорее навыком аналитика данных - это так, но вы все равно должны использовать этот навык для науки о данных. Большинство наборов данных не предоставляется вам в бизнес-среде (в отличие от академических кругов), и вам придется создавать свои собственные - через SQL. Сейчас существует множество подтипов SQL; например PostgreSQL, MySQL, Microsoft SQL Server T-SQL и Oracle SQL. Это похожие формы одного и того же языка запросов, размещенные на разных платформах. Поскольку они очень похожи, наличие любого из них полезно и может быть легко переведено на немного другую форму SQL.

Jupyter Notebook, , игровая площадка для специалистов по данным как для программирования, так и для моделирования. Исследовательская среда, если хотите, позволяющая быстро и легко кодировать Python, которое может включать комментарии вне кода, сам код и платформу для создания и тестирования моделей из полезных библиотек, таких как sklearn, pandas, и тупой

Алгоритмы - основная функция специалиста по данным - использовать алгоритмы, которые быстро и точно предсказывают, классифицируют и предлагают выходные данные на основе данных. По мере ввода данных в модель создается новый результат. Примеры ключевых типов алгоритмов обычно делятся на обучение без учителя (например, кластеризация) и обучение с учителем (например, классификация / регрессия). Некоторые конкретные ключевые алгоритмы:

  • Случайный лес (классификация по ансамблям)
  • Логистическая регрессия (классификация - не регрессия)
  • К-средние (кластеризация)
  • K-ближайший сосед (классификация / регрессия)

В целом, специалист по анализу данных может заниматься разными делами, но его основные функции заключаются в следующем:

— meet with stakeholders to define the business problem
— pull data (SQL)
— Exploratory Data Analysis (EDA), feature engineering, model building, & prediction (Python, Jupyter Notebook, and Algorithms)
— depending on the workplace, compile code to .py format and/or pickled model for production

Чтобы узнать больше о том, кто такие специалисты по обработке данных, сколько они зарабатывают, о перспективах отрасли и другую полезную информацию, щелкните ссылку здесь [4] из Калифорнийского университета в Беркли.

Аналитик данных

Аналитик данных имеет те же титулы, что и бизнес-аналитик, аналитик бизнес-аналитики и даже разработчик Tableau. Основное внимание в аналитике данных уделяется описанию и визуализации текущего ландшафта данных - составлению отчетов и объяснению их для нетехнических пользователей. Перекрестная должность в области науки о данных - это аналитик данных, который выполняет прогнозную аналитику, разделяя больше сходств с аналитиком данных без автоматизированного алгоритмического метода вывода этих прогнозов.

Вот некоторые из основных навыков, которые необходимы аналитику данных:

  • SQL
  • Excel
  • Табло (или другие инструменты визуализации - Google Data Studio и т. д.)

SQL - точно так же, как аналитик данных будет использовать SQL, как указано выше. Однако в этой области большое внимание уделяется SQL. Если некоторым специалистам по данным может уйти простой выбор столбцов из таблицы с несколькими объединениями, аналитик данных может рассчитывать на выполнение гораздо более сложных запросов (, например, общие табличные выражения, сводные таблицы, оконные функции, подзапросы). Иногда аналитик данных может иметь больше общего между инженером данных и специалистом по анализу данных в зависимости от компании.

Excel - старая школа, да, но все же очень мощная, здесь можно выполнять даже прогнозную аналитику и анализ тенденций. Основная проблема часто заключается в более низкой производительности в Excel по сравнению с другими более надежными инструментами, использующими Python.

Таблица - я бы сказал просто инструменты визуализации, но, по моему опыту, большинство компаний относят этот инструмент к особому, высшему навыку для аналитиков данных. Перетаскивание данных в предварительно созданную диаграмму в Tableau просто и эффективно; есть и более сложные функции, такие как вычисляемые поля и подключение к базе данных SQL в реальном времени, а не на основе анализа с помощью статической таблицы Excel.

В целом, аналитик данных может выполнять множество функций, но его основные функции заключаются в следующем:

— meet with stakeholders to define the business problem
— pull data (SQL)
— EDA, trend analysis, and visualizations (Excel and Tableau)
— depending on the workplace, presenting findings and supplying actionable insights those same stakeholders

Чтобы узнать больше о специалистах по обработке данных, о том, сколько они зарабатывают, о перспективах в этой области, а также о другой полезной информации, нажмите здесь [6] из Северо-Западного университета.

Сходства

Некоторые сходства уже были отмечены в предыдущих разделах, но, подытоживая, можно сказать, что специалисты по обработке данных имеют общие черты между обоими языками кодирования, платформами / инструментами и решением проблем.

Подобные инструменты включают, но не ограничиваются ими, SQL, Tableau и ту же концепцию определения проблемы, анализа данных и вывода анализа.

Различия

Хотя есть сходства, все же есть различия между двумя полями и ролями.

Некоторые из основных различий связаны с автоматизацией анализа - специалисты по обработке данных сосредотачиваются на автоматизации анализа и прогнозов с помощью алгоритмов с использованием таких языков программирования, как Python, тогда как аналитики данных используют стационарные или прошлые данные, а в некоторых случаях создают прогнозируемые сценарии с помощью таких инструментов, как Табло и SQL.

Резюме

Наука о данных и аналитика данных имеют больше, чем просто название (данные), но они также включают некоторые важные различия. Если вы хотите стать специалистом по анализу данных или специалистом по анализу данных, я надеюсь, что вы нашли этот обзор основных различий и сходств полезным. Если вы уже занимаетесь одной из этих двух ролей, то я надеюсь, что научил вас чему-то новому, и если у вас есть какие-либо вопросы или комментарии, сделайте это ниже.

использованная литература

[1] Фотография Christina @ wocintechchat.com на Unsplash [1], (2019)

[2] M.Przybyla, скриншот Jupyter Notebook, (2020)

[3] М.Прибыла, Наука о данных vs машинное обучение. Вот в чем разница , (2020)

[4] Калифорнийский университет в Беркли, Что такое наука о данных?, (2020)

[5] Фото William Iven на Unsplash, (2015)

[6] Северо-Восточный университет, Чем занимается аналитик данных?, (2019)

[7] Фото Filiberto Santillán на Unsplash, (2019)