Каково быть специалистом по данным?

В октябре 2012 года в статье Harvard Business Review специалист по данным был назван самой сексуальной работой 21 века. Эта статья не является причиной того, почему наука о данных так популярна сейчас, но я почти уверен, что она побудила некоторых людей стать специалистами по данным.

Прежде чем я начну с уныния, позвольте мне заявить, что я рад, что сменил карьеру, чтобы работать в области науки о данных. Я люблю учиться, практиковаться и реализовывать в этой области. Возможно, это единственная работа, которая мне нравится в моей профессиональной карьере.

Тем не менее, есть темная сторона, которую трудно увидеть, прежде чем выйти на поле боя. Коробка вся блестящая и красивая снаружи. Открыв его, вы увидите некоторые вещи, которые могут немного снизить вашу мотивацию.

Когда я впервые создал блокнот jupyter, содержащий модель машинного обучения, я был очень взволнован. Модель достигла довольно высокой точности. Мне казалось, что я уже решаю некоторые проблемы.

Проблема заключалась в том, что это был простой и готовый к использованию набор данных. Я мог бы добиться высокой точности, используя любой стандартный алгоритм машинного обучения, не понимая, что происходит под капотом. Мне не нужно было заниматься разработкой или извлечением функций.

Если быть немного более пессимистичным, машинное обучение - это лишь небольшая часть пирога науки о данных. Вы можете стать инженером по машинному обучению, но не каждый бизнес может позволить себе иметь отдельного инженера по машинному обучению.

В крупных технологических компаниях обычно есть группы по обработке и анализу данных, а также отдельные должности, которые занимаются разными частями конвейера обработки данных. Однако эти должности ограничены.

Компании среднего или низкого уровня, которые хотят адаптировать науку о данных в своем бизнесе, как правило, нанимают одного или двух специалистов по данным и ожидают, что они возьмут на себя весь рабочий процесс. Таким образом, это значительно увеличит ваши шансы узнать о каждом этапе рабочего процесса.

Это то, что я подразумеваю под темной стороной работы в области анализа данных. Вы должны узнать намного больше, чем вы могли ожидать.

Если вы следуете процессу самообучения, процесс обучения будет более динамичным. Чем больше вы узнаете, тем меньше чувствуете, что знаете.

Наука о данных - это междисциплинарная область, сочетающая статистику, математику и программирование. Вдобавок ко всему, в некоторых случаях вам необходимо знать предметную область.

Чтобы стать специалистом по данным, вам нужно изучить множество тем и инструментов. Я постараюсь вкратце объяснить, что это такое и почему они важны.

Роли специалистов по обработке данных, как правило, сводятся к полному стеку.

Данные - это топливо для любого продукта, связанного с наукой о данных. Сбор и хранение данных имеет фундаментальное значение. Скорее всего, вы будете много работать с базами данных SQL и NoSQL. Вы, вероятно, не окажетесь в положении, когда вы можете просто сказать: «Дайте мне посмотреть данные». Лучше всего иметь возможность получать собственные данные из базы данных.

Следующий шаг может быть самым важным из всех. Вам нужно изучить данные. Я не говорю о вычислении среднего или создании простых графиков распределения. Чтобы обнаружить структуру или связать переменные в реальном наборе данных, вам необходимо досконально понимать статистические концепции.

Хорошие знания статистики упростят понимание алгоритмов машинного обучения. Без статистических концепций вы не смогли бы объяснить, почему линейная регрессия подходит или не подходит для данной задачи.

Вам также необходимо в определенной степени охватить некоторые темы линейной алгебры и математики. Вычисления, выполняемые с помощью моделей машинного обучения или глубокого обучения, включают умножение матриц. Чтобы понять, как алгоритмы оптимизации используются в моделях, необходимы некоторые фундаментальные математические знания.

Недостаточно просто знать эти темы. Вы должны уметь их реализовать. Таким образом, обучение навыкам программирования неизбежно. Вам не обязательно быть разработчиком программного обеспечения, но все эти алгоритмы и инструменты анализа данных используются через язык программирования.

Есть много альтернатив, но наиболее часто используемыми языками программирования в науке о данных являются Python и R. Существует множество пакетов, которые ускоряют процесс анализа данных и машинного обучения, но для их использования необходим базовый уровень навыков программирования.

Допустим, вы определяете проблему и разрабатываете решение проблемы, связанное с данными. Вы собираете, очищаете и обслуживаете данные. Создана полезная и точная модель.

Следующим шагом является развертывание вашей модели. Если ваша работа остается в блокноте jupyter, она бесполезна. Это не может создать никакой ценности. MLOps - это совершенно другой мир. Есть много альтернатив. Сложно даже решить, какой из них использовать.

Если вы работаете над средним или крупным проектом, вы, вероятно, будете использовать систему контроля версий, такую ​​как Git. Не стоит забывать о таких инструментах. Более того, работа в среде Linux значительно упростит вашу жизнь.

И последнее, но не менее важное: вам также может потребоваться практический опыт облачных вычислений. Все больше и больше компаний начинают хранить свои данные в облаке. У них больше нет физических серверов.

Я попытался коснуться почти всего, что, как мне кажется, вам нужно изучить. Конечно, нет предела тому, чему вы можете и должны учиться. Чем больше у вас навыков, тем более привлекательными вы становитесь для компаний.

Темная сторона становится более очевидной после того, как вы пройдете несколько сертификатов по науке о данных. Вы чувствуете, что готовы заняться бизнес-проблемой. Однако когда вы сталкиваетесь с реальной проблемой, вы сталкиваетесь с темной стороной.

Сертификаты полезны, но определенно не сделают вас специалистом по данным за несколько месяцев. Помните об этом, когда ставите перед собой цели. Улучшение ваших навыков во всех этих областях займет много времени. Это сложная, но многообещающая задача.

Заключение

Вы можете возразить, что необязательно приобретать все эти навыки. В некоторых случаях вы правы. Однако, учитывая популярность и потенциал науки о данных, наличие всех этих навыков увеличит ваши шансы на успех в этой области.

Если вы просмотрите объявления о вакансиях на LinkedIn или на любом другом портале, вы увидите, чего большинство компаний ожидают от должности специалиста по данным.

Существуют определенные должности, такие как исследователь машинного обучения, но они ограничены и требуют высокого уровня опыта.

Я не хочу показаться пессимистичным. Моей целью было пролить свет на путь специалиста по данным. Вы должны ставить перед собой реалистичные цели и быть готовыми пожертвовать большим количеством времени и усилий.

Спасибо за чтение. Пожалуйста, дайте мне знать, если у вас есть какие-либо отзывы.