Может ли инженерия данных свергнуть науку о данных?

2021 год почти закончился, и кажется, что сотни миллионов долларов были вложены в инвестиции в данные, стартапы данных и машинное обучение.

В частности, финансирование также сильно сместилось с сосредоточения внимания на области науки о данных и машинного обучения на область инженерии данных и управления данными.

Конечно, если вы управляете данными на базе искусственного интеллекта, я уверен, что вы будете получать финансирование.

Но давайте посмотрим, что говорят другие эксперты по данным.

Мы попросили людей из разных частей мира данных поделиться своими взглядами на то, что они увидят в оставшейся части 2021 года и в быстро приближающемся 2022 году - будь то новые стартапы, технологии или передовые практики.

Посмотрим, что они сказали.

Коллин Тартоу, доктор философии. - Технический директор, Starburst Data

На рынке вакансий в сфере данных уже некоторое время происходит сдвиг от науки о данных к инженерии данных. И, честно говоря, пора - мы знаем, что хорошая основа данных имеет первостепенное значение для построения корпоративной стратегии данных. Инженеры по обработке данных необходимы для соединения данных из различных источников с системами отчетности, бизнес-аналитики и обработки данных, которые превращают данные в значительную ценность для бизнеса. Инженерия данных была самой быстрорастущей профессией в сфере технологий в 2019 году, вакансии в области разработки открытых данных выросли на 40% в 2020 году, и, безусловно, эта тенденция сохранится и в этом году.

Движущей силой этого сдвига является то, что предприятия осознали, что большая программа по науке о данных без прочной основы данных ненадежна, и ключ к принятию решений на основе данных - это начать с инженерии данных. Смежные должности, такие как инженеры-аналитики и архитекторы данных, также растут, поскольку они сосредоточены на сокращении сроков до получения ценности данных и создании стабильных и надежных архитектур данных, соответственно. Имея прочную базу инженерии данных, предприятия могут реализовать свои цели с помощью ценных программ бизнес-аналитики и анализа данных, построенных на прочном фундаменте.

Более того, используя возможности как устаревших данных в существующих системах, так и новых данных в современной облачной инфраструктуре, компании могут получать более гибкие аналитические данные и позволять им по-новому реагировать на изменения на рынке. Gartner придумал это как X-analytics, а такие технологии, как Starburst Data, необходимы для упреждающего создания платформы данных, которая может быстро разворачиваться и реагировать на глобальные события (например, пандемию) без требуя создания совершенно нового процесса или инфраструктуры. X-аналитика - это новое поколение технологий обработки данных, которое перенесет нас в будущее данных.

Джо Рейс - генеральный директор / соучредитель Ternary Data

Инженерия данных становится все более «корпоративной». Это может заставить вас сильно съежиться. Термин «предприятие» вызывает в воображении кошмары безликих комитетов, одетых в чрезмерно накрахмаленные синие рубашки и цвета хаки, бесконечную бюрократию, развитие водопада и место, где инновации умирают. Этот образ, безусловно, тревожит, и я говорю не о том. Когда я говорю о «корпоративности», я имею в виду некоторые из хороших вещей, которые крупные компании могут делать с данными - управление, операции, управление и другие «скучные» вещи. Я считаю, что инженерия данных становится «корпоративным» делом. Приветствуйте его с распростертыми объятиями!

Когда-то инженеры по обработке данных в основном занимались обслуживанием деталей более низкого уровня сложных инструментов больших данных. В этих инструментах часто было много движущихся частей, и у инженеров по обработке данных не было времени ни на что другое, кроме технического обслуживания, тушения пожаров и других подвигов. В результате многие корпоративные вещи отошли на второй план - управление данными, обнаружение данных, качество данных и множество других важных методов управления данными и эксплуатации.

В настоящее время инструменты обработки данных абстрагируют большую часть тяжелой работы, связанной с инструментами «больших данных». Вещи, которые когда-то были сложными, такие как конвейеры данных и озера / хранилища данных, превращаются в товар до такой степени, что они в основном «подключи и работай», «установи и забудь». Подумайте о таких компаниях, как AWS, Google Cloud, Azure, Snowflake, Fivetran и многих других, которые полностью упрощают стек данных. В то время как инженер по обработке данных будет по-прежнему разрабатывать системы, проектирование будет сосредоточено на создании ценных систем, которые приведут к конкурентному преимуществу и дифференциации.

Благодаря широко распространенной абстракции и упрощению инструментов обработки данных, у инженера по данным теперь есть пропускная способность, чтобы начать работу на более высоких уровнях цепочки создания стоимости - среди прочего, управление данными и DataOps. Когда-то это были методы, предназначенные только для крупных предприятий, но сейчас они становятся обычным явлением для компаний любого размера и уровня зрелости. Точно так же, как бесчисленное количество компаний, упрощающих стеки «больших данных», появилось новое поколение передовых методов, инструментов и компаний, которые сейчас занимаются некогда «корпоративными» областями, такими как управление данными, обнаружение данных, качество данных и множество других других важных методов управления данными и эксплуатации. Think Great Expectations (качество данных), DataHub (каталог данных) и многие другие проекты, которые в настоящее время работают над решением ранее игнорировавшихся проблем в области инженерии данных.

Уделяя больше внимания «корпоративным» проблемам в инженерии данных, инженеры по обработке данных будут продвигаться вверх по цепочке создания стоимости и решать другие типы проблем, чем те, что были несколько лет назад. Мне не терпится представить, какие типы проблем будет решать следующее поколение инженеров по обработке данных через несколько лет. «Корпоративная» инженерия данных сейчас - это круто. Привыкай к этому.

Сергей Караев - Руководитель направления STEM AI, Turnitin

Gradescope - это веб-приложение для преподавателей колледжей, позволяющее оценивать студенческие экзамены, домашние задания и проекты по программированию.

У нас есть около десятка различных моделей машинного обучения в производстве, начиная от обработки изображений старой школы и заканчивая написанными вручную функциональными MLP и современными крупными моделями Transformer для распознавания рукописного ввода и понимания текста. Основная проблема, с которой мы сталкиваемся, - это «закрыть маховик» (т.е. связать мониторинг наших производственных моделей с данными, на основе которых они были обучены и оценены).

Во-первых, сложно настроить правильный мониторинг моделей. Большинство прогнозов модели не передаются пользователю таким образом, чтобы он мог предоставить обратную связь, поэтому мы часто не обращаем внимания на метрики.

Во-вторых, для тех прогнозов, которые учитывают обратную связь с пользователем, мы должны вручную разработать сложные панели мониторинга SQL, чтобы вычислять правильные метрики и указывать на правильные входные данные и прогнозы.

В-третьих, эти информационные панели по-прежнему не соответствуют требованиям, поскольку идеальная информационная панель могла бы отображать обширные данные, такие как изображения, чего не позволяют существующие решения.

Наконец, наши инструменты для мониторинга отделены от инструментов для управления и просмотра наборов данных, и нелегко добавить примеры, найденные при мониторинге, в наборы для обучения или оценки и, таким образом, улучшить модель при повторном обучении. Написание пользовательских панелей мониторинга и веб-интерфейсов только для мониторинга и управления данными - это не то, чем должны заниматься группы данных. Я надеюсь, что скоро появятся специализированные инструменты, которые восполнят этот пробел в функциональности!

Технологии на оставшуюся часть 2021 года и в последующий период

До конца 2021 года есть чего ждать.

Я с нетерпением жду возможности увидеть, действительно ли инженерия данных окажется в центре внимания. Существует множество статистических данных и опросов, показывающих, что инженерия данных набирает обороты с точки зрения роста числа рабочих мест.

Лично я до сих пор не вижу, как инженерия данных превзойдет крутой фактор работы специалиста по данным, потому что наука о данных, как правило, занимает больше места в центре внимания, а инженерия данных, как правило, находится на заднем плане.

Я бы с радостью ошибся в том, насколько крута инженерия данных.

Мы надеемся, что оставшаяся часть 2021 года приведет не только к совершенствованию технологий, но и к личному росту и расширению всех наших читателей.

Спасибо за чтение и удачи во второй половине 2021 года!