Эти пять ключевых моментов необходимо знать на вашей первой работе в области Data Science.
На сегодняшний день я закончил свой первый месяц работы специалистом по анализу данных. Это была крутая кривая обучения, мягко говоря, но также одно из самых полезных и захватывающих впечатлений!
Однако в течение этих вводных недель мне пришлось быстро стать конкурентом в некоторых важных технологиях и знаниях, о которых я раньше не имел или имел очень ограниченного представления. В этой статье я надеюсь пролить свет на необычные инструменты, которые помогут новым специалистам в области данных в их первой работе.
Объектно-ориентированное программирование
Скорее всего, вы будете работать с Python, который по своей сути является языком объектно-ориентированного программирования (ООП). Эта парадигма кодирования очень полезна в реальных задачах Data Science, когда у вас обычно очень большие наборы данных и записные книжки с тысячами строк кода. Использование ООП помогает сжать сценарий и обеспечивает более чистую структуру вашей программы по сравнению с типичным процедурным стилем программирования. Фактически, большая часть кода в отрасли написана с использованием этой идеологии, как и все распространенные библиотеки и пакеты.
У меня был ограниченный опыт работы с ООП, и я бы очень хотел, чтобы я практиковался в кодировании в этой парадигме гораздо больше, прежде чем приступить к работе. Мой совет любому начинающему специалисту по анализу данных - изучать ООП, такие вещи, как классы, самость, наследование, например. Затем попробуйте написать базовый алгоритм машинного обучения, используя эту парадигму. В Интернете есть множество учебных пособий, которые помогут вам начать с разных людей, объясняющих ООП по-разному, так что для вас будет объяснение!
Git и GitHub
«У вас есть глава GitHub?»
"Ага!"
«Вы знаете, как им пользоваться?»
"Не совсем"
Так прошел мой первый разговор о Git и GitHub. Насколько мне известно, каждая компания использует GitHub для того или иного, и это важный инструмент и навык для любого технического специалиста.
Раньше я использовал GitHub, но только как портфолио для демонстрации своих работ. Однако Git и GitHub - это гораздо больше, и они обладают очень полезными функциями, к которым я все еще привыкаю.
Для тех из вас, кто может не знать, Git и GitHub - это система контроля версий, которая упрощает структурирование и управление проектами кодирования. Существуют и другие системы контроля версий, но GitHub - безусловно, лидер рынка.
Как и в случае с ООП, изучение Git и GitHub довольно простое, с множеством онлайн-ресурсов, которые вы можете изучить. Этому также довольно просто научиться, но для того, чтобы стать профессиональным, требуется практика, как и все остальное. Я рекомендую изучить основы, такие как push, pull, слияние, ветвление и т. Д.
Командная строка / Терминал
Несмотря на то, что мы не инженеры-программисты или разработчики, специалисты по обработке данных иногда используют командную строку для определенных задач. Значительная часть специалистов по обработке данных не имеет опыта работы в области компьютерных наук, поэтому они, вероятно, имеют ограниченный опыт использования терминала или командной строки.
Опять же, как и в случае с Git и ООП, простое руководство может охватить большую часть функций, которые может использовать специалист по данным. Так что изучайте такие вещи, как компиляция, установка пакетов, изменение каталогов и т. Д. Все это очень тривиальные команды, но я думаю, что любой технический специалист должен знать это и чувствовать себя комфортно.
Моделирование - это еще не все
Внедрение новейших алгоритмов машинного обучения обычно является самой захватывающей частью проекта, и именно поэтому большинство людей увлекаются наукой о данных. Помню, я часами настраивал свой алгоритм, чтобы добиться от своей модели максимальной производительности.
Однако в промышленности это не всегда актуальный подход. Наиболее распространенное решение, почему ваша модель неэффективна, - это качество, тип и размер данных, на которых вы тренируетесь. Возможно, вы слышали о появлении нового «Data-Centric» в сообществе данных, которое сосредоточено на улучшении данных для улучшения модели. Сейчас это становится очень распространенным явлением в промышленности.
Идея состоит в том, чтобы сосредоточить внимание на ваших данных с точки зрения их происхождения, качества, а также улучшить процесс разработки функций для создания лучшей модели. Поэтому убедитесь, что вы понимаете и даже сосредотачиваете свое обучение на предварительной обработке данных в своих проектах.
Ошибка, которую я совершил, заключалась в том, что я узнал все об алгоритмах машинного обучения, что полезно знать, но не уделил много времени этапам предварительной обработки. Поэтому убедитесь, что вы одинаково сосредотачиваете свое обучение как на стороне данных, так и на стороне моделирования машинного обучения, чтобы вы хорошо владели и тем, и другим.
Знайте и изучайте свою отрасль
Вы можете быть самым технически одаренным специалистом по данным в мире, но если вы не имеете представления о своей сфере деятельности, ваша работа не будет иметь большого значения. Работа специалиста по данным - отвечать на вопросы бизнеса и предоставлять бесценную информацию. Это означает, что вы должны знать, как работает ваша отрасль, и идти в ногу со временем.
Этому трудно научиться до начала работы, поскольку вы можете не знать, в какой сфере бизнеса вы будете работать. Однако, если вы знаете свою отрасль, я бы рекомендовал тратить около получаса в день на чтение последних новостей и событий. Даже простое погружение в Википедию принесет вам огромную пользу, и я заметил, что это действительно помогло мне в моих проектах. Также важно отметить, что вы также многому научитесь с помощью простого осмоса, слушая на собраниях. Однако в ускорении этого процесса нет вреда.
Однако, если быть более общим, просто слушайте и читайте новости, так как это улучшит ваши знания обо всем и сделает вас более разносторонним профессионалом!
Заключение
Каждая работа в области Data Science отличается, а инструменты различаются в зависимости от компании и отрасли. Я считаю, что пять перечисленных выше тем важны и принесут вам пользу независимо от того, где вы в конечном итоге будете работать.
Надеюсь, вы нашли это полезным!