Взлеты и падения Data Scientist: мы слышим это от самих экспертов

Ясмин Чамчун через The Data Scientist

Профессия в области науки о данных становится все более востребованной. Поскольку все больше и больше людей выходят на рынок, что делает специалиста по данным такой привлекательной профессией в наши дни?

Несомненно, эта область может быть очень прибыльной как в финансовом плане, так и благодаря практическому применению ключевых навыков. Кроме того, практическое участие в кодировании, программировании и математике кажется очень полезным.

Тем не менее, постоянно быть в курсе последних разработок в области инструментов и сред, а также быстрых изменений в технологических достижениях может быть довольно сложно, что может привести к перегрузке работой и давлению.

Здесь, в этой части вопросов и ответов, у меня была возможность взять интервью у двух специалистов по данным и одного бывшего главного специалиста по данным, которые любезно согласились поделиться своими мыслями о том, что вдохновило их стать специалистом по данным, а также о плюсах и минусах, с которыми они столкнулись. поле.

КОЛИН ФЭЙ, Data Scientist и R Hacker в ThinkR. Основатель Дата Бж.

Сайт: https://colinfay.me

Гитхаб: https://github.com/ColinFay

Твиттер: https://twitter.com/_ColinFay

  • Что вдохновило вас стать специалистом по данным?

«Момент в моей карьере, когда я решил переключиться на науку о данных, был обусловлен двумя разными причинами: — я работал в компании, которая проводила много «ручного анализа» — загрузка файлов Excel, копирование и вставка, ручная отчетность, Графики Excel и PowerPoint… Я быстро понял, что это самый эффективный способ сделать это, поэтому я начал писать программы для автоматизации этого анализа.

Город, в котором я живу во Франции (Ренн), является одним из пионеров, когда дело доходит до открытых данных; на самом деле это был первый французский город после Парижа, в котором был открыт портал данных. Открытый исходный код и открытые данные очень важны для меня, и я хотел быть частью этого движения. Но я понял, что было много доступных наборов данных, но не так уж много (если вообще было) использовалось повторно. Поэтому в то время я решил открыть веб-сайт для ведения блогов, где я размещал анализ данных из наборов данных с открытым исходным кодом. Блог работал довольно хорошо, и я был одним из самых активных пользователей открытых данных в то время, и мне очень нравилось рассказывать истории с данными. Сейчас у меня не так много времени, чтобы продолжать этот проект, но это был потрясающий опыт».

  • Что вам больше всего нравится в этой работе?

Сегодня я работаю Data Scientist и R Hacker в «ThinkR. Мы занимаемся консультированием, обучением, разработкой программного обеспечения и инфраструктурой R. Первое, что мне нравится, это то, что каждый новый проект — это новый вызов. Люди собирают данные годами, но только недавно мы начали извлекать из этих данных пользу, поэтому многое из того, что нам нужно, — это новые инструменты и методы.

Кроме того, данные и инфраструктура всегда разные, они специфичны для каждого контекста и для каждой компании, с которой мы работаем. Так что нет готового рецепта, когда появляется новый проект, нам приходится искать новые способы работы с данными и технической инфраструктурой. Это то, что очень полезно на интеллектуальном уровне.

Мне также нравится тот факт, что моя компания глубоко укоренилась в сообществе открытого исходного кода, как и многие компании в мире науки о данных. В ThinkR мы помогаем другим компаниям перейти на R и реализовать возможности открытого исходного кода. В свою очередь, мы, как компания, стараемся отдать как можно больше сообществу, и это то, что я очень ценю. В частности, мы работаем над тем, чтобы сделать инструменты R все более и более готовыми к работе, и постоянно стремимся сделать этот язык законным инструментом аналитики и обработки данных в корпоративном мире».

  • Что вы считаете самым сложным в работе специалиста по данным?

«Я бы сказал, что одна из самых сложных вещей заключается в том, что поле развивается ежедневно, поэтому вы должны быть начеку, если хотите оставаться в игре. То, что вы узнали месяц назад, может измениться сегодня, и то, как вы привыкли что-то делать, через год будет другим. Но, с другой стороны, это также то, что очень важно в работе в области науки о данных — новые инструменты, новости, новые языки, новая структура… всегда есть что-то новое, чему можно научиться, и каждый день на работе — новый день».

  • Что бы вы посоветовали тем, кто хочет стать специалистом по данным?

«Во-первых, вы можете это сделать. Тогда я бы предложил сделать себе портфолио по науке о данных. Это может быть простая страница Github, блог, открытая книга, пакеты… Сила работы в такой области, как наука о данных, заключается в том, что многое из того, что мы делаем, основано на инструментах с открытым исходным кодом. А это значит, что, во-первых, вы можете многому научиться сами, вам не нужно платить дополнительные деньги за лицензию на программное обеспечение. Это также означает, что вы можете легко поделиться тем, что знаете. Даже больше, если вы выберете такой язык, как R: онлайн-ресурсы бесчисленны, сообщество невероятно приветливо и даст вам ценные отзывы и советы по вашей работе. Итак, создайте что-нибудь онлайн и поделитесь этим.

Верните сообществу то, что давало вам раньше. Найдите тему, которая вам нравится, и вы можете использовать ее в качестве предлога для изучения и практики Data Science».

БОЯН ТУНГУЗ, старший специалист по данным — H2O.ai

LinkedIn: https://www.linkedin.com/in/tunguz/

Твиттер: https://twitter.com/tunguz

  • Что вдохновило вас стать специалистом по данным?

«Я занимаюсь наукой (физикой), и мне всегда было интересно попытаться понять физический мир с помощью данных и моделирования. Когда я открыл для себя науку о данных, у меня открылись глаза на возможности использования моего научного опыта и способов мышления для решения целого ряда проблем, которые казались почти неразрешимыми.

Мне также всегда нравились технологии и работа с компьютерами, поэтому такое сочетание научного мышления и вычислительного подхода мне очень понравилось. В области науки о данных мне особенно нравится уделять внимание машинному обучению и прогнозному моделированию. Есть что-то почти чудесное в создании вычислительных моделей, которые могут распознавать изображение, понимать фрагмент текста или предсказывать будущие продажи какого-либо продукта».

  • Что вам больше всего нравится в этой работе?

«Машинное обучение — это невероятно быстро развивающаяся область, и почти каждый день происходит новый прорыв, открытие или новый классный инструмент, который только что был выпущен. Кроме того, это очень прикладная область, и существует очень короткий промежуток между тем, когда что-то концептуализировано или открыто, и моментом, когда можно создать инструмент или продукт с помощью этих знаний.

Поле также заполнено невероятно умными людьми, которые любят взаимодействовать и делиться своими знаниями. Мне повезло, что я работаю в компании, где признают таких людей, и возможность работать с ними — это такая привилегия и удовольствие.

Наука о данных — это очень общая область, и ее инструменты и методы могут применяться для решения самых разных задач. Традиционная наука очень разрознена, и для человека, специализирующегося в одной области, практически невозможно работать в другой. Науке о данных удается преодолеть эти разрозненности. У меня всегда был широкий спектр интересов, и возможность использовать свои новые навыки для решения самых разных задач — это потрясающе. В один день я могу работать над обнаружением финансового мошенничества или над созданием лучшей модели андеррайтинга, в другой день я создаю самый сложный алгоритм классификации белков, а после этого я могу переключиться на обнаружение токсичных комментариев на дискуссионных онлайн-форумах».

  • Что вы считаете самым сложным в работе специалиста по данным?

«Наука о данных все еще является относительно новой дисциплиной, и людям все еще трудно понять, что это такое, на что она способна и каковы ее ограничения. Часто в отраслевых условиях от вас ожидают работы, которая лучше подходит для других тесно связанных дисциплин — инженерии данных, разработки программного обеспечения, бизнес-анализа, статистики, разработки и т. д.

Кроме того, поскольку наука о данных так быстро развивается, может быть довольно сложно идти в ногу со всеми последними разработками. В один прекрасный день вы можете почувствовать, что освоили, скажем, все, что нужно знать для моделирования НЛП, а затем всего за месяц или два появятся несколько новых инструментов и техник, которые сделают все ваши собственные знания либо устаревшими, либо товаром».

  • Что бы вы посоветовали тем, кто хочет стать специалистом по данным?

«Если, как в случае с большинством специалистов по данным, вы пытаетесь переключиться на науку о данных из какой-то другой области, вы должны понимать, что вам потребуется некоторое время, чтобы стать достаточно опытным, чтобы иметь возможность хорошо работать профессионально. Так что дайте себе время. Будьте терпеливы, но и настойчивы.

Узнайте как можно больше, либо записавшись на традиционную академическую программу, либо изучив как можно больше из множества отличных онлайн-ресурсов. Попробуйте создать значимое портфолио проектов. Одним из вариантов для этого является поиск интересующих вас наборов данных, а затем разработка проектов вокруг них. Другой вариант, который мне действительно помог, — это стать очень активным на Kaggle и хорошо выступить в нескольких соревнованиях. Вам не нужно становиться мастером или гроссмейстером Kaggle, но стабильный послужной список Kaggle, а также несколько высоких результатов в соревнованиях могут быть полезным портфолио ».

ЭРИК ЛЕБИГОТ, старший научный консультант. Управление капитальным фондом. Бывший главный специалист по данным.

Твиттер: https://twitter.com/lebigot

  • Что вдохновило вас стать специалистом по данным?

«Любовь к математике с 6 лет, к программированию с 10 и к визуализации с 12».

  • Что вам больше всего понравилось в этой работе?

«Достаточно хорошо понимать значение данных, чтобы найти хорошие идеи о том, как делать прогнозы на их основе».

  • Что вы считаете самым сложным в работе специалиста по данным?

«Борьба с данными, которые каким-либо образом повреждены (недокументированные или плохо документированные функции, неверные значения и т. д.)».

  • Что бы вы посоветовали тем, кто хочет стать специалистом по данным?

«Наилучшая и наиболее удовлетворительная наука о данных — это когда функции и модели, которые вы создаете, мотивированы значимыми причинами (а не пробуются наугад)».

Первоначально опубликовано на https://thedatascientist.com 17 июня 2019 г.