Как человек, который наблюдал и принимал непосредственное участие в сюжетной арке, которая есть и была «наукой о данных», я думаю, что важно сделать шаг назад и взглянуть на историю того, как мы оказались там, где мы находимся. Я буду говорить слишком широко, специально, чтобы все было проще.

До того, как появился термин «наука о данных», были ученые, аналитики и инженеры, которые считали, что «деятельность, ориентированная на данные», является основной частью своей работы. Появление дешевого хранилища (даже до AWS) и программного обеспечения для обработки / хранения данных с открытым исходным кодом (например, Hadoop и его кузенов) создало целый мир возможностей для продуктов и услуг, которые ранее были возможны только теоретически.

«Предиктивная аналитика» стала модным словом, когда такие компании, как Google, Microsoft и маленький Facebook, действительно начали извлекать из данных информацию (обратите внимание на трансформационный поток). Внезапно эти инженеры-«специалисты по данным», ученые-моделисты и продвинутые аналитики были брошены на непристойно востребованную и высокооплачиваемую роль «специалистов по данным». Так начались две великие битвы: аргументы «Вы не настоящий специалист по данным, если не применяете X» (внутренние) аргументы, и аргументы «Что нужно, чтобы получить от специалиста по данным» (внешние) аргументы. .

Зарплаты выросли до неприличного уровня. Рекрутеры обращались к любому, у кого был пульс и описание, рифмованное со словом «данные», чтобы разместить их на должностях в отрасли. Недавним выпускникам, которые случайно упомянули науку о данных в своей биографии, предлагали более 100 тысяч зарплат, когда у них не было реального опыта. Это было зрелище.

Затем мы увидели, что тех, кто рано встал на подножку, началось падение иллюзий. Недавний выпускник, которого мы наняли 6 месяцев назад, не смог превратить нашу соломинку в золото и собирается уйти (подсказка: у вас не было никаких реальных данных или плана, вы просто сказали «иди заклинание», а затем вставили их в комната). Другой нанятый нами выпускник по науке о данных воскликнул, что она не заинтересована в том, чтобы быть «прославленной обезьяной Excel» ... но ее информационные панели были такими крутыми (совет: это не работа в области науки о данных).

Тем временем прессы работали, прославляя концепцию ученых данных - самую сексуальную новую работу в мире! Высокие зарплаты! Самое горячее, без чего не обойтись! Это, в свою очередь, вдохновило студентов на то, чтобы попасть в новую область $ exxxy, и в колледжах стали появляться классы. Затем нахлынули стервятники с сертификатами… «станьте специалистом по данным за 8 недель» и т. Д., Чтобы воспользоваться преимуществами как студентов, которые не знали лучше, так и работодателей, которые думали, что сертификация даст им качество Выпускник уровня Facebook Sr. Data Scientist…

На этом преждевременном рынке все еще было много непонимания того, что такое наука о данных, что она может делать и (что, возможно, наиболее важно), какие данные вам нужно собирать, чтобы ваша команда по науке о данных действительно могла делать ВСЕГО. Я даже не буду получать удовольствие от подключения разрозненных источников данных в вашей организации, получения разных вице-президентов для «внутреннего обмена данными» или всей политической стороны стандартизации данных (да, у меня есть боевые шрамы). Произошло еще большее разочарование, несмотря на восторженные отзывы в прессе о науке о данных. Большинство компаний просто не видели результатов. «Мы попробовали науку о данных, это не сработало», - был реальный рефрен.

Сегодня мы находимся в пост-хайповой ситуации. Сертификационные программы и классы все еще существуют. Существует множество областей навыков, касающихся множества действий, необходимых для переноса данных из исходной коллекции (или даже предварительной коллекции, например, схемы или таксономии / онтологии) в полезные или производственные модели, а также множество наборов навыков, которые ни у одного человека никогда не может быть. Другими словами, наука о данных - это работа команды, простая и понятная. Но у нас все еще есть компании с в основном мусорными данными, плохо определенными, живущими изолированно и полагающимися на «того одного капризного парня», чтобы на самом деле понять, что означает большинство полей, которые пытаются нанять какого-нибудь парня с свежим лицом, чтобы «все исправить» и «Будь гениальным, потому что мы много тебе платим». Этот ребенок, кстати, никогда не видел по-настоящему сложного и полностью испорченного набора данных (или нескольких, уродливых и плохо поддающихся синтаксическому анализу наборов данных), которые требовали бы массированной обработки, чтобы выжать ценность. Все их образовательные задания до сих пор предоставляли относительно приличные структурированные данные. У них также нет навыков качественного анализа данных, и поэтому они понятия не имеют, как брать текст произвольной формы и извлекать из него полезную информацию (кроме, может быть, для того, чтобы использовать анализатор настроений). У них есть базовый «инстинкт поиска данных», которого они никогда не испытывали. В них не стучат, а просто что к чему.

В среде замешательства и неудовлетворенных ожиданий со всех сторон проигрывают все. Неудивительно, что наука о данных может стать прежней.

Все это безумие с данными - проектирование, извлечение, массирование, постановка, статистика, интерпретация, представление… правильное, эффективное и осмысленное выполнение этого требует опыта, старших коллег и командной работы. Некоторые лучше других справляются с определенными частями этой большой картины. Я утверждаю, что все они «специалисты по данным». Это команда. Действительно.