Не ограничивайтесь техническими дебатами, чтобы получить наилучшие результаты для своей команды.

Предприятия из всех секторов инвестируют в образовательные программы по науке о данных. Работая в технологической образовательной компании Decoded, мне было интересно видеть огромную ценность, которую навыки работы с данными могут принести в любой сектор — от банков и розничных торговцев до благотворительных организаций и правительства. Приступая к такой инициативе, нашим клиентам необходимо принять множество стратегических решений. Один из самых частых вопросов, которые мы получаем:

«Какому языку программирования мы должны учить наших сотрудников?»

Сообщество специалистов по данным регулярно обсуждает этот вопрос, и быстрый поиск в Google покажет множество блогов и видеороликов, в которых обсуждаются технические достоинства и элегантность каждого языка. Но с точки зрения бизнеса решение обычно зависит от другого набора факторов.

Вот краткие вопросы и ответы, которые могут помочь вам принять решение.

В. Какой язык программирования должны изучать наши сотрудники для науки о данных или анализа данных?

Питон или Р.

Это два самых популярных и универсальных языка на данный момент. Они оба бесплатные и с открытым исходным кодом. В каждом из них есть сотни библиотек, которые упрощают процесс преобразования, исследования, анализа и визуализации данных.

В ежегодном опросе онлайн-сообщества по науке о данных Kaggle «Состояние науки о данных и машинного обучения» задается вопрос «Какие инструменты используются в работе?»

R и Python находятся в самом верху списка последних опубликованных результатов опроса. Python используют 76,3% респондентов, R — 59,2%. (Стоит отметить, что элементы, следующие по популярности, не являются эквивалентными инструментами. Например, SQL – это язык, который позволяет выполнять запросы к базе данных и мало чем поможет, когда дело доходит до анализа данных.) .

Следующие языки программирования в списке используются гораздо реже: C/C++ — 19,2%, MATLAB — 18,4% и Java — 18,3%. У всех этих языков есть свои достоинства, но когда дело доходит до изучения науки о данных, они просто не такие доступные, гибкие и хорошо поддерживаемые.

В. Итак, какой из них вы рекомендуете для наших учеников? Python или R?

Как правило, самым важным решающим фактором является то, предпочитают ли ваши существующие команды специалистов по обработке и анализу данных Python или R. Работа в согласованной среде дает огромное преимущество, потому что:

  • Учащиеся могут воспользоваться существующей внутренней сетью поддержки, если они столкнутся с какими-либо проблемами.
  • Код можно совместно использовать и повторно использовать между командами.
  • Белые списки и установка, вероятно, будут проще для вашей ИТ-команды.

Поэтому, если ваши существующие специалисты по данным в основном используют Python, выбирайте Python. Если они проводят большую часть своего времени в R, выберите R.

В. Что делать, если у меня нет существующей команды специалистов по обработке и анализу данных или у них нет предпочтений?

Питон. Так как:

  • Python — самый популярный язык обработки данных (и самый быстрорастущий). Таким образом, вы можете рассчитывать на более качественные онлайн-ресурсы для обучения и устранения неполадок, а также на широкий спектр библиотек кода, поддерживающих общие задачи современной аналитики данных.
  • Python часто проще в управлении, чем R для ИТ-команд (например, Citi Ventures только что инвестировала в Anaconda, популярную платформу Python для обработки данных).
  • Python также популярен в контексте, не связанном с наукой о данных (например, в веб-разработке). Это означает, что учащиеся имеют доступ к более широкому спектру образовательных ресурсов и могут применять их в других сферах своей жизни.

В. Есть ли у R какие-либо преимущества?

Да! Опрос Kaggle показал, что, хотя Python в целом более популярен, R популярнее среди статистиков. R может быть хорошим выбором, потому что он был специально создан для статистического анализа.

Это означает, что многие распространенные статистические инструменты встроены в R (тогда как Python больше полагается на внешние пакеты). Традиционно R также имел более широкий спектр статистических и специализированных пакетов визуализации. Однако по мере того, как Python становился все более популярным, он начал наверстывать упущенное. В наши дни почти все, что вы можете сделать в R, можно легко воспроизвести в Python.

В. Хорошо, думаю, я принял решение. Что, если выяснится, что я совершил ужасную ошибку?

Не паникуйте. Как вы могли заметить, опрос Kaggle показал, что Python используют 76,3 % респондентов, а R — 59,2 %, так что в сообществе наблюдается огромное совпадение. Большинству специалистов по данным удобно использовать оба инструмента, даже если они отдают предпочтение одному из них.

Изучение любого языка значительно упростит изучение другого. Не забывайте, что помимо самого программирования нужно еще многому научиться — от математических и статистических концепций до конвейеров данных и визуализации. Любой язык является отличной базой для изучения этих тем и начала вашего пути в качестве специалиста по обработке и анализу данных.