Моя жена раньше была астрономом. У нее это получалось очень хорошо, и ей пришлось поработать с некоторыми из ведущих имен в этой области. Но потом, лет пять назад, ее страсть к работе иссякла. Она решила перейти в коммерческую науку о данных.

Как и многие ученые, она не знала, как совершить прыжок. Перемещение из одного мира в другой, о котором она мало что знала, было довольно пугающим. На самом деле, однако, она была уже большим специалистом по обработке данных, чем большинство людей с таким титулом. Большую часть предыдущего десятилетия она провела только за анализом больших наборов данных с использованием PCA, байесовских рассуждений, анализа ошибок, кода Python, многомерного биннинга, подбора итеративной модели и черт знает чего еще.

Несмотря на то, что обладала огромной квалификацией для той роли, к которой она стремилась, она не чувствовала себя полностью подходящей для нее. Но это неудивительно: тот же образец неверия в себя проявился у каждого талантливого специалиста по данным, с которым я работал, и я работаю в области машинного обучения и вокруг него более двадцати пяти лет.

Я бы сказал, что признаком хорошего специалиста по обработке данных является то, что он не чувствует себя таким. За их глазами всегда скрывается крошечная паника, что кто-то поймет, что они не настоящие, и это чувство никогда не исчезнет. Но это нормально. Даже хорошо. Он у меня тоже есть. Но вопрос в том, почему? На мой взгляд, существует по крайней мере четыре основных причины явного эффекта синдрома самозванца, с которым сталкивается наука о данных как отдельная область.

1. Мы тонем в инструментах

Вы уже изучили TensorFlow? Если нет, то, наверное, уже слишком поздно. Вам следует сосредоточиться на Керасе. То есть, если вы еще не начали изучать PyTorch. Но, возможно, вы работаете с большими коммерческими потоками данных, определенными вашим клиентом, поэтому ваши потребности в искусственном интеллекте удовлетворяются с помощью Spark MLib. Если только ваша компания не решила, что вам нужна дополнительная стабильность потоковой передачи Flink, и в этом случае вы, несомненно, положите руки на FlinkML.

За исключением случаев, когда ваш клиент уже привязан к AWS, ваши потоки данных могут поступать из потоков Kinesis. Так что, возможно, имеет смысл изучить Sagemaker, Comprehend и Rekognition. Или, если ваш клиент привязан к MS Azure, вы, вероятно, просто захотите обратиться к Azure ML.

Но подождите, я слышал, вы говорите, большая часть работы, которую вы делаете, - это расследования, прямо на вашем ноутбуке. Вы больше чувствуете себя как дома с Python и Pandas. В этом случае вы обязательно должны быть уверены, что знаете NLTK, Spacey, SciKit-Learn, Shogun, Theano, SciPy, Seaborn, Plotly и Gensim для начала.

Кто-нибудь вообще знает, как все это правильно использовать? Если этот человек существует, я с ним еще не встречался. И все же, когда вы не знаете пакет, всегда есть скрытое ощущение, что в нем есть что-то важное и новое, что вы уже должны знать, если хотите называть себя профессионалом. Это проблема, потому что каждый месяц появляются новые пакеты и инструменты. Тот же шаблон повторяется, когда вы попадаете в сорняки машинного обучения, потому что всегда есть другой тип нейронной сети, о которой люди говорят, и Интернет забит учебниками, которые почти, но не совсем объясните, как они работают. (Сотни повторяемых экспериментов, которые требовались для того, чтобы на самом деле заставить их работать, обычно скрыты вне поля зрения.)

Истина этих инструментов в том, что большинство из них имеют огромное перекрытие. Не нужно их всех замораживать. Но это не помешает вам почувствовать, что вы должны это делать. В productOps мы пытаемся решить эту проблему, чтобы изучить каждый новый пакет, когда он выходит, и поделиться знаниями с нашей командой по анализу данных. Мы расширяемся, прежде чем пытаться углубиться, а затем повышаем квалификацию по мере необходимости в соответствии с требованиями проекта. Мы позволяем себе избавиться от всего, чего еще не знаем, и верим, что у нас все получится. Таким образом, немного легче удержать рассудок.

2. Отраслевые разговоры не соответствуют обычаям

За сильным давлением отрасли, которое толкает к развитию ИИ, стоит огромная сумма денег, которую можно заработать на облачных сервисах. Большая тройка провайдеров отчаянно пытается выделиться и привлечь новых клиентов. Один из способов сделать это - раздать такие инструменты, как конфеты.

Вы видите эту закономерность не только в предложениях по ИИ и науке о данных, но и в сфере пакетов бизнес-аналитики, а теперь даже в средах быстрого прототипирования приложений. Фактически, облачные провайдеры предложат вам практически все, чтобы помочь вам. Потому что настоящие деньги не в беспилотных автомобилях, и их не будет в ближайшее время. Настоящие деньги заключаются в перестройке архитектур компаний из списка Fortune 500 и привлечении их к плате за облачные услуги в обозримом будущем.

Это означает, что инструменты, о которых превозносят крупные технологические организации, неизбежно станут более глянцевыми и мощными, чем то, что на самом деле нужно большинству людей, занимающихся бизнесом. Но когда вы специалист по данным, трудно увидеть этот лес за блестящими цифровыми деревьями. Вы просто видите, как люди предлагают все более умные предложения по машинному обучению, от которых наверняка кто-то извлекает пользу.

Наше решение - использовать блестящие инструменты только, когда этого требует бизнес-ситуация, и немного гордиться этим. Нет смысла использовать глубокое обучение, если линейная регрессия дает правильный ответ для вашего клиента.

3. Роль специалиста по обработке данных плохо определена

Другая реальность науки о данных заключается в том, что работа по-прежнему остается невероятно туманной. Не каждой организации нужны новые умные идеи, которые появляются постоянно. Иногда нужно провести настоящее исследование. Однако чаще всего проблемы связаны с инженерией данных. После того, как вы обнаружите полезные закономерности в своих данных, вам понадобится способ определять их снова и снова. Это означает, что в большинстве случаев наука о данных перетекает в инженерию данных и даже в разработку. Это особенно верно сейчас, когда провайдеры облачных вычислений пытаются предоставить так много готовых решений для машинного обучения, которые больше связаны с подключением и игрой, чем с изменением переменных до тех пор, пока не появятся чудеса.

Если добавить к этому тот факт, что многие организации до сих пор не знают, что именно они пытаются извлечь из собственных данных, все становится еще сложнее. Иногда удивительные открытия просто не прячутся в гигантской куче данных журнала, которые вам передали, как бы вы ни смотрели. В других случаях вам нужно создать простые, но симпатичные панели управления бизнес-аналитикой и участвовать в организационном повествовании, чтобы оправдать свою работу или сохранить свой стартап на плаву. Чаще всего, если вы учились на ученого, некоторые из этих историй будут казаться немного сложными, даже когда они критичны для успеха в бизнесе. Это только усугубляет синдром.

4. Общество обучает умных людей жить в постоянных сомнениях

Вдобавок ко всему этому, есть багаж, с которым сталкиваются многие специалисты по данным в первый же день. Те, кто уходит из академической среды (например, моя жена), часто прекрасно осознают, насколько мало они освещают эту новую область, когда в их прошлой жизни глубокое понимание передовых результатов было критически важным для карьеры. Те, кто переезжает из любого другого места, обычно хорошо осознают, что они не карьерные ученые, и чувствуют, что все время проводят в догонялках, независимо от того, насколько они умны или старательны. .

Моя версия - это странный гибрид этих двух чувств: я годами метался между бизнесом и наукой, но ни в одном месте не чувствовал себя как дома. Мне потребовались годы, чтобы понять, что «специалист по данным» - это современный термин для обозначения того, чем я занимался, потому что, когда я начал этим заниматься, этого термина не существовало. Я предположил, что наука о данных была чем-то особенным и непохожим на то, что каким-то образом не имело отношения к машинному обучению, имитационному моделированию, разработке программного обеспечения или разработке статистических инструментов, которыми я занимался. Поразмыслив, это кажется невероятной глупостью, но именно так работает синдром самозванца. Это не рационально.

Теперь, когда я достиг той точки в моей карьере, когда я управляю командой, я старался все это помнить. Я стараюсь заботиться друг о друге и доверять разуму друг друга. Мы оставляем достаточно места, чтобы люди могли сказать: «Я понятия не имею, что это такое» или «Я еще не узнал об этом». На мой взгляд, это жизненно важно, потому что для хороших специалистов по анализу данных синдром самозванца никогда не исчезнет. Это то, с чем нам всем придется научиться жить.