Наука о данных Full Stack: новое поколение специалистов по анализу данных

В этом сообщении блога рассказывается о том, что нужно, чтобы стать специалистом по данным машинного обучения, чтобы не отставать от меняющегося спроса в отрасли.

Наука о данных уже много лет привлекает внимание молодых людей, имеющих формальное образование со степенью бакалавра, магистра или доктора философии. в области информатики, статистики, бизнес-аналитики, инженерного менеджмента, физики, математики или, разумеется, науки о данных. Однако есть много мифов, которые люди предполагают о науке о данных. Это больше не машинное обучение и статистика. На протяжении многих лет я говорил со многими кандидатами в науку о данных о проникновении в эту область. Почему вокруг науки о данных так много шума? Неужели статистика и машинное обучение по-прежнему могут помочь вам проникнуть в эту область? Это все еще будущее? Даже я был в одной лодке со всеми вами, но теперь я вижу, как сформировался спрос на следующее поколение специалистов по обработке данных, которые займутся этой областью. Я не собираюсь учить вас заниматься наукой о данных, поскольку многие люди в Интернете уже этим занимаются.

Почему так много говорят о Data Science?

Все, кто не за горами, хотят заниматься наукой о данных. Несколько лет назад в этой области существовала проблема спроса и предложения: количество специалистов по анализу данных было меньше, а спрос вырос после того, как д-р DJ Патил и Джефф Хаммербахер отказались от термина Data Science. Но сейчас, в 2020 году, ситуация изменилась. Увеличился приток энтузиастов в области науки о данных, получивших формальное образование / МООК, и спрос тоже вырос, но не до такой степени. Этот термин стал шире и шире, чтобы включить большинство вспомогательных функций, необходимых для работы с данными. Я хотел бы процитировать одну из моих любимых цитат из самородков KD:

«Наука о данных похожа на подростковый секс: все говорят об этом, ни одно тело на самом деле не знает, как это делать, все думают, что это делают все остальные, поэтому все утверждают, что они это делают».

Помимо шуток, вот некоторые из вещей, которые я чувствую, почему наука о данных взяла на себя всю эту шумиху:

Тайна титулованного дата-сайентиста
Высокая удовлетворенность работой
Огромное влияние на бизнес
Многие сайты вакансий оценивают ее как самую популярную вакансию (последние 3 года как самая горячая работа в США по версии Glassdoor)
Новейшие разработки
Увеличение притока генерации данных
Благодаря множеству отличных / не очень хороших школ и учебных лагерей, предоставляющих ученые степени в области науки о данных
данные прекрасны! (Не буквально: p)

Люди, которые называют себя Data Scientists?

Кто-то собирается это сказать, поэтому позвольте мне рассказать немного правды о текущей ситуации в отрасли. Из-за роста спроса и престижа блестящего титула Data Scientist многие компании начали менять должности специалистов по данным на аналитика продукта, аналитика бизнес-аналитики, бизнес-аналитика, аналитика цепочки поставок, аналитика данных и статистика, потому что люди уходили с работы, чтобы получить звание дата-сайентиста в компаниях, которые давали им за выполнение той же работы. Все дело в уважении, которое многие роли получают из-за этого незначительного изменения слов. Таким образом, компании начали изменять названия таким же образом, чтобы сделать их более яркими и желанными, например, аналитик данных-аналитик, специалист по данным о продуктах, ученый-рост, ученый-аналитик-цепочка поставок, специалист по визуализации данных или ученый-аналитик - что нет ?.

Большинство людей, получающих образование / онлайн-обучение, ошибочно полагают, что все специалисты по обработке данных создают причудливые модели машинного обучения, но это не всегда так. По крайней мере, так было со мной, когда я начал получать степень магистра в области прикладной науки о данных, я предполагал, что большинство специалистов по данным занимаются машинным обучением, но когда я вошел на стажировку и на рынок труда в США, именно тогда я узнал о реальном правда. Сила, заставляющая людей заниматься наукой о данных, связана с ажиотажем вокруг искусственного интеллекта и его влияния на бизнес.

Новое поколение специалистов по данным - машинное обучение

Для людей, которые хотят заниматься прикладным машинным обучением в качестве Data Scientist-ML (так я назову название, потому что это не аналитика данных: p) в 2020 году без докторской степени, это гораздо больше. теперь вместо того, чтобы просто знать, как применять машинное обучение к наборам данных, что сегодня может сделать почти каждый. Есть еще несколько важных вещей, которые я выяснил на собственном опыте, которые могут помочь вам найти роль специалиста по данным в процессе собеседования или даже попасть в шорт-лист:

Распределенная обработка данных / машинное обучение. Получение практического опыта работы с такими технологиями, как Apache Spark, Apache Hadoop, Dask и т. д., может помочь вам доказать, что вы можете создавать конвейеры данных / машинного обучения на шкала. Было бы неплохо иметь опыт работы с любым из них, но я бы рекомендовал Apache Spark (либо на Python, либо на Scala).
Производственное машинное обучение / конвейеры данных. Если вы можете получить практический опыт работы с Apache Airflow, стандартным инструментом оркестровки заданий с открытым исходным кодом для создания конвейеров данных и машинного обучения. В настоящее время это используется в отрасли, поэтому рекомендуется изучить и реализовать несколько проектов по этому поводу.
DevOps / Cloud. Большинство соискателей в области науки о данных игнорируют DevOps. Если у вас нет инфраструктуры, как бы вы построили конвейеры машинного обучения? Создать записные книжки или код, работающий на вашем локальном компьютере, не так просто, как мы делаем в курсовой работе. Код, который вы пишете, должен масштабироваться в рамках инфраструктуры, которую вы или другие люди можете создать в вашей команде. Многие компании могут не иметь уже разработанной инфраструктуры машинного обучения и искать кого-нибудь для начала. Знакомство с Docker, Kubernetes и создание приложений машинного обучения с помощью таких фреймворков, как Flask, должно стать вашей стандартной практикой даже во время курсовой работы. Мне нравится Docker, потому что он масштабируемый, и вы можете создавать образы инфраструктуры и реплицировать то же самое на серверах / в облаке в кластерах Kubernetes.
Базы данных: знание баз данных и языков запросов является обязательным. SQL очень часто игнорируется, но он по-прежнему является отраслевым стандартом, будь то для любой облачной платформы или баз данных. Начните практиковать сложные SQL-запросы на leetcode, который поможет вам с некоторой частью собеседований по кодированию в профилях DS, поскольку вы будете нести ответственность за перенос данных со складов с предварительной обработкой на ходу, что облегчит вашу работу по предварительной обработке. перед запуском моделей ML. Большая часть разработки функций может быть выполнена на ходу при передаче данных в модели с помощью SQL, что является аспектом, которым многие люди пренебрегают.
Языки программирования. Рекомендуемые языки программирования для анализа данных - Python, R, Scala и Java. Знать кого-либо из них - это нормально, и это может помочь. Для ролей типа машинного обучения в процессе собеседования будут проводиться этапы программирования в реальном времени, поэтому вам нужно практиковаться там, где вам удобно - Leetcode, Hackerrank или что угодно, что вам больше нравится.

Итак, это время, когда знание только машинного обучения или статистики не поможет вам заняться наукой о данных, чтобы заниматься машинным обучением, если только вам не повезет, у вас не будет отличных связей в отрасли (вы, очевидно, должны заниматься сетями, что очень важно!) Или иметь исключительная исследовательская запись уже на ваше имя. Бизнес-приложения и знания в предметной области обычно приходят с опытом и не могут быть изучены заранее, кроме прохождения стажировки в соответствующих отраслях.

Что со мной?

Два месяца назад я присоединился к медиацентру ViacomCBS в качестве специалиста по данным сразу после окончания аспирантуры, не имея никакого предшествующего опыта работы на полную ставку в отрасли, за исключением стажировки и стажировки. В мои обязанности входит создание продуктов машинного обучения на основе идеи - разработки - производства, где я использую большинство из перечисленных выше вещей. Я надеюсь, что это будет полезно для всех начинающих специалистов по данным и инженеров по машинному обучению, которые пытаются проникнуть в эту область.

Задайте свои вопросы на [myLastName] [myFirstName] на gmail dot com или давайте подключимся к LinkedIn.