Я Зин, в настоящее время работаю специалистом по обработке данных в платежной индустрии в команде аналитиков и консультантов.

Специалист по анализу данных считается самой сексуальной работой в 21 веке, и вам может быть любопытно, как выглядит день в жизни специалиста по данным.

В этой статье я расскажу о своем типичном дне как дата-сайентиста. Моя история может не отражать всю совокупность специалистов по анализу данных, но я считаю, что это даст общее представление о жизни специалистов по обработке данных для тех, кто заинтересован в том, чтобы присоединиться к отрасли, аналогичной моей.

Как специалист по анализу данных, входящий в группу аналитиков и консультантов, моя основная обязанность заключается в том, чтобы помогать клиентам решать их проблемы, предоставляя действенные идеи или создавая модели машинного обучения для прогнозирования будущих тенденций или поведения клиентов.

Из вышесказанного очевидно, что мой обычный день включает в себя хорошее сочетание деловой активности, данных и технологий.

Данные

Около 50 процентов моего дня я посвящаю работе с данными. Когда-нибудь я буду изучать, предварительно обрабатывать или обрабатывать данные, а на днях я буду строить модели машинного обучения или панели мониторинга визуализации.

Знание и изучение данных

Специалистам по данным очень важно знать данные наизнанку. Когда дело доходит до данных, мы обращаемся к нескольким межфункциональным командам: будь то сессии стратегического планирования, встречи с клиентами или повседневные процессы принятия решений.

Каждый раз, когда происходит взаимодействие с клиентом, мы должны сначала спросить себя, является ли это знакомой или новой бизнес-проблемой. Для первого мы можем просто использовать существующие решения и данные. Однако для новых бизнес-проблем мы должны понимать, можно ли решить проблему с помощью существующих данных. Если это невозможно, мы должны рассмотреть возможность изучения новых наборов данных. Бесспорно, что данные являются основным, но решающим элементом для определения того, можем ли мы решить бизнес-проблему клиента или нет.

Подготовка данных

Чтобы выполнить анализ или построить модель, мы должны сначала подготовить данные. Подготовка данных играет важную роль, и у нас может быть несколько этапов, включая этапы предварительной обработки данных и обработки данных.

Преобразование необработанных данных в понятный формат с помощью машины, вменение данных, обработка выбросов, уменьшение размеров и создание новых функций - вот некоторые примеры процесса подготовки данных.

Разработка модели

Мы должны поддерживать и повторно проверять существующие модели, чтобы убедиться, что модели обучены последним данным и тенденциям.

Время от времени мы также проводим мозговой штурм для новых решений для удовлетворения дополнительных потребностей бизнеса. При разработке новых моделей, как обычно, выполняются обычные процессы, такие как извлечение признаков, разделение набора данных на обучение / тестирование для моделей, перекрестная проверка, вневременная проверка и выбор лучшей модели с использованием соответствующих показателей производительности.

В основном я использую HiveQL (HQL), который является SQL-подобным языком для получения данных из hadoop для суммирования данных и специальных запросов. Для изучения нового источника данных Python используется для тестирования различных сторонних API. Подготовка данных и разработка моделей в значительной степени реализованы с использованием Python.

Создание панели инструментов визуализации

Чтобы поддерживать бизнес, а также понимать ежемесячные / квартальные тенденции, мы также создаем информационные панели визуализации. С их помощью нетехническим пользователям легче понять, как работает бизнес, и спланировать стратегии на будущее.

Tableau - мой основной инструмент бизнес-аналитики (BI) для разработки информационных панелей.

Доставка проекта

Еще 30 процентов моего дня я трачу на подготовку к сдаче клиентского проекта.

После проведения анализа или построения моделей мы не можем предоставить клиентам цифры. Мы должны интерпретировать числа и объяснять их в терминах непрофессионала. Кроме того, мы должны предоставить клиентам действенные направления, чтобы они могли разработать надежный стратегический бизнес-план.

При подготовке к сдаче проекта я столкнулся с одной из трудностей, связанных с извлечением соответствующих данных для решения проблем клиентов. Поскольку у нас есть доступ к большому количеству данных, мы щедры и всегда хотим поделиться как можно большим объемом данных. Слишком много информации приведет к отклонению от основной постановки проблемы. Когда мы спрашиваем «ну и что» по каждому из выводов, это всегда помогает нам сосредоточиться на правильном пути.

Интерпретация выводов, полученных на основе данных, извлечение релевантной информации и предоставление кратких практических сообщений на языках клиента так же важны, как и работа с данными и построение моделей.

Встречи

Остальные 20 процентов моего дня я обычно трачу на собрания.

Обычно мне удается получить бизнес-знания на межфункциональных встречах команды. Знания о бизнесе помогают нам в повседневном анализе, а также в построении моделей.

У меня также есть встречи по науке о данных, на которых обсуждаются методы анализа данных, новые решения и улучшения в процессе конвейера.

Встречи - это возможности, где мы можем учиться друг у друга.

Таким образом, специалисту по анализу данных необходимы не только навыки аналитики или программирования, но и навыки интерпретации результатов, выявления бизнес-проблем и доставки соответствующих сообщений.

Я надеюсь, что эта статья поможет тем, кто пытается понять, как выглядит день в data science. Если вам интересно или вы пытаетесь стать специалистом по данным, я написал статью о том, как я стал специалистом по данным.