Эти пять ключевых моментов необходимо знать на вашей первой работе в области Data Science.

На сегодняшний день я закончил свой первый месяц работы специалистом по анализу данных. Это была крутая кривая обучения, мягко говоря, но также одно из самых полезных и захватывающих впечатлений!

Однако в течение этих вводных недель мне пришлось быстро стать конкурентом в некоторых важных технологиях и знаниях, о которых я раньше не имел или имел очень ограниченного представления. В этой статье я надеюсь пролить свет на необычные инструменты, которые помогут новым специалистам в области данных в их первой работе.

Объектно-ориентированное программирование

Скорее всего, вы будете работать с Python, который по своей сути является языком объектно-ориентированного программирования (ООП). Эта парадигма кодирования очень полезна в реальных задачах Data Science, когда у вас обычно очень большие наборы данных и записные книжки с тысячами строк кода. Использование ООП помогает сжать сценарий и обеспечивает более чистую структуру вашей программы по сравнению с типичным процедурным стилем программирования. Фактически, большая часть кода в отрасли написана с использованием этой идеологии, как и все распространенные библиотеки и пакеты.

У меня был ограниченный опыт работы с ООП, и я бы очень хотел, чтобы я практиковался в кодировании в этой парадигме гораздо больше, прежде чем приступить к работе. Мой совет любому начинающему специалисту по анализу данных - изучать ООП, такие вещи, как классы, самость, наследование, например. Затем попробуйте написать базовый алгоритм машинного обучения, используя эту парадигму. В Интернете есть множество учебных пособий, которые помогут вам начать с разных людей, объясняющих ООП по-разному, так что для вас будет объяснение!

Git и GitHub

«У вас есть глава GitHub?»

"Ага!"

«Вы знаете, как им пользоваться?»

"Не совсем"

Так прошел мой первый разговор о Git и GitHub. Насколько мне известно, каждая компания использует GitHub для того или иного, и это важный инструмент и навык для любого технического специалиста.

Раньше я использовал GitHub, но только как портфолио для демонстрации своих работ. Однако Git и GitHub - это гораздо больше, и они обладают очень полезными функциями, к которым я все еще привыкаю.

Для тех из вас, кто может не знать, Git и GitHub - это система контроля версий, которая упрощает структурирование и управление проектами кодирования. Существуют и другие системы контроля версий, но GitHub - безусловно, лидер рынка.

Как и в случае с ООП, изучение Git и GitHub довольно простое, с множеством онлайн-ресурсов, которые вы можете изучить. Этому также довольно просто научиться, но для того, чтобы стать профессиональным, требуется практика, как и все остальное. Я рекомендую изучить основы, такие как push, pull, слияние, ветвление и т. Д.

Командная строка / Терминал

Несмотря на то, что мы не инженеры-программисты или разработчики, специалисты по обработке данных иногда используют командную строку для определенных задач. Значительная часть специалистов по обработке данных не имеет опыта работы в области компьютерных наук, поэтому они, вероятно, имеют ограниченный опыт использования терминала или командной строки.

Опять же, как и в случае с Git и ООП, простое руководство может охватить большую часть функций, которые может использовать специалист по данным. Так что изучайте такие вещи, как компиляция, установка пакетов, изменение каталогов и т. Д. Все это очень тривиальные команды, но я думаю, что любой технический специалист должен знать это и чувствовать себя комфортно.

Моделирование - это еще не все

Внедрение новейших алгоритмов машинного обучения обычно является самой захватывающей частью проекта, и именно поэтому большинство людей увлекаются наукой о данных. Помню, я часами настраивал свой алгоритм, чтобы добиться от своей модели максимальной производительности.

Однако в промышленности это не всегда актуальный подход. Наиболее распространенное решение, почему ваша модель неэффективна, - это качество, тип и размер данных, на которых вы тренируетесь. Возможно, вы слышали о появлении нового «Data-Centric» в сообществе данных, которое сосредоточено на улучшении данных для улучшения модели. Сейчас это становится очень распространенным явлением в промышленности.

Идея состоит в том, чтобы сосредоточить внимание на ваших данных с точки зрения их происхождения, качества, а также улучшить процесс разработки функций для создания лучшей модели. Поэтому убедитесь, что вы понимаете и даже сосредотачиваете свое обучение на предварительной обработке данных в своих проектах.

Ошибка, которую я совершил, заключалась в том, что я узнал все об алгоритмах машинного обучения, что полезно знать, но не уделил много времени этапам предварительной обработки. Поэтому убедитесь, что вы одинаково сосредотачиваете свое обучение как на стороне данных, так и на стороне моделирования машинного обучения, чтобы вы хорошо владели и тем, и другим.

Знайте и изучайте свою отрасль

Вы можете быть самым технически одаренным специалистом по данным в мире, но если вы не имеете представления о своей сфере деятельности, ваша работа не будет иметь большого значения. Работа специалиста по данным - отвечать на вопросы бизнеса и предоставлять бесценную информацию. Это означает, что вы должны знать, как работает ваша отрасль, и идти в ногу со временем.

Этому трудно научиться до начала работы, поскольку вы можете не знать, в какой сфере бизнеса вы будете работать. Однако, если вы знаете свою отрасль, я бы рекомендовал тратить около получаса в день на чтение последних новостей и событий. Даже простое погружение в Википедию принесет вам огромную пользу, и я заметил, что это действительно помогло мне в моих проектах. Также важно отметить, что вы также многому научитесь с помощью простого осмоса, слушая на собраниях. Однако в ускорении этого процесса нет вреда.

Однако, если быть более общим, просто слушайте и читайте новости, так как это улучшит ваши знания обо всем и сделает вас более разносторонним профессионалом!

Заключение

Каждая работа в области Data Science отличается, а инструменты различаются в зависимости от компании и отрасли. Я считаю, что пять перечисленных выше тем важны и принесут вам пользу независимо от того, где вы в конечном итоге будете работать.

Надеюсь, вы нашли это полезным!