Трудности будущего специалиста по данным

Если вам случится поговорить с инженером по информатике, скорее всего, он / она захочет стать следующим дальновидным ДАННЫМ. По мере того, как заявки притягиваются к магнитам, а моль - к пламени, «Наука о данных» находит претендентов из различных (а иногда и совершенно не связанных) областей исследования. Прежде чем вы будете сбрасывать со счетов это произведение, написанное кем-то, кто считает себя Хранителем Святого Грааля науки о данных, не желающим позволять новым ученикам вторгаться, поверьте мне, что это не так. Все, что я надеюсь сделать с помощью этой статьи, - это пролить свет на то, что упускается из виду в науке о данных.

Единственный способ не быть замененным другим человеком или AI-ботом в будущем - это конкретные знания, и человек, который это сказал, также сказал:

«Конкретные знания можно получить, преследуя искреннее любопытство и страсть, а не то, что сейчас актуально».

Навал Равикант, Как разбогатеть (не повезло)

Так что, если вы бросаетесь в науку о данных / машинное обучение без особого энтузиазма, это не принесет вам пользы. Если от науки о данных вы добиваетесь быстрой выгоды в виде более высокой зарплаты, чем у инженера / разработчика программного обеспечения, что ж, насколько вам известно, это миф. Многие будущие стартапы и крупные многонациональные корпорации стремятся использовать возможности машинного обучения, учитывая большое количество вакансий «Инженер по машинному обучению» или «Специалист по данным». Это также создает экспоненциальный спрос на специалистов по данным, который часто заполняют те, кто любит уверенность в хорошо оплачиваемой работе, а не науку о ней.

Самый важный вопрос, который никто не задает - ложный случай «почему?»

Прогресс, достигнутый сообществом разработчиков ПО с открытым исходным кодом в этой области, кажется, прямо пропорционален количеству людей, которые в LinkedIN называют «энтузиастами машинного обучения». Объем библиотек и проектов, доступных в Интернете, определенно облегчил жизнь разработчикам, однако здесь есть обратная сторона медали - мы успокаиваемся. Поступая так, разработчики отдалились от друзей своему самому большому союзнику - вопрошающему уму, всегда стремящемуся понять ПОЧЕМУ науки о данных.

Разница между новичком и экспертом заключается в вопросах, которые они задают. Учащийся должен постоянно спрашивать: «Почему?» пока вы не получите конкретный ответ прямо перед вами. Например, если в задаче классификации используется классификатор случайных лесов с набором из 26 деревьев решений, инженер должен попытаться выяснить:

ПОЧЕМУ именно этот классификатор, а ПОЧЕМУ всего 26 деревьев решений?

Ответ кроется в математическом элементе науки о данных (я немного расскажу об этом).

При таком уровне поддержки со стороны сообщества Data Science часто возникает вопрос: «Чем занимается специалист по данным?». Быстрый поиск в Google покажет вам, что они разрабатывают процессы моделирования данных, создают алгоритмы и прогнозные модели для извлечения данных в соответствии с вариантом использования, а затем помогают анализировать данные и делиться мнениями с коллегами, или простыми словами, «идентифицируя шаблон». . Эти задачи специалиста по данным не могут быть выполнены без фактического выяснения «почему» науки о данных. Никакое количество MOOC (массовых открытых онлайн-курсов) не поможет вам решить, какой тип нейронной сети выбрать или какие гиперпараметры сети использовать. Это то, что можно понять из кропотливых объяснений причин, связанных с этими решениями. Поскольку никто не задает вопросов, мы находимся среди «избыточных» специалистов по данным.

Чтобы уменьшить излишний спрос на специалистов по данным, компании могли бы усилить процесс найма и нанять меньше, но хороших инженеров в этой области. Это повысит качество доступных специалистов по данным. Колледжи, университеты и даже онлайн-курсы должны побуждать учащихся понимать суть машинного обучения и читать больше публикаций по этой теме, а не слепо копировать вставку из Stack Overflow и GitHub.

Даже те, кто искренне стремится понять концепцию машинного обучения, часто сталкиваются с типичным вопросом «Что делать?» вопрос. Не так давно я тоже стоял и смотрел на тот же перекресток, гадая, что делать! Мы знаем, что простое изучение библиотек никогда не даст нам желаемых знаний, а изучение базовой математики для машинного обучения может быть проблемой для некоторых. Более того, когда погружаешься в основную математику, часто задаешься вопросом, есть ли какой-нибудь прагматический смысл даже думать о конкуренции с такими, как Google, Amazon и Tesla, за создание математических алгоритмов - задача, которая может быть контрпродуктивной, если у тебя нет оружия, такого как время, бюджет. и необходимые математические навыки в вашем арсенале. Чтобы найти ответ на эту проблему, я записался на еще один MOOC, который был посвящен математике в машинном обучении. Этот курс по-настоящему изменил правила игры, он грубо потряс меня, заставив спросить, почему, что помогло мне лучше понять машинное обучение.

Вот мои выводы:

Я не против использования доступных ресурсов постоянно растущим сообществом разработчиков ПО с открытым исходным кодом, совсем нет, это было бы похоже на прогулку, когда у вас есть машина, припаркованная в гараже (если, конечно, вы не делаете это из соображений здоровья!). Ключ кроется в нахождении баланса между тем, что доступно, и математикой задачи. Первое не может заменить второе.

Если вы все еще внедряете или даже пытаетесь использовать модель машинного обучения, не задаваясь вопросом «что я делаю» и «почему я делаю», вы можете думать о себе как о «ученом данных», но на самом деле вы просто заперты в клетке для хомяка. "гонки данных".

Трудности будущего специалиста по данным

Вопросы по теме