… И путешествие так далеко; эволюция данных и аналитики

В начале - Data Scientist

В начале 2010-х годов шумиха вокруг больших данных действительно выросла. По мере того, как ожидания в отношении расширенной аналитики и анализа неструктурированных данных росли, роль «Data Scientist» появлялась на подъеме хайп-цикла Gartner (см. Рисунок ниже).

В то же время проблемы с внедрением различных важных новых платформ данных, упомянутых на графике Gartner, начали становиться очевидными (например, Map Reduce и другие распределенные системы и платформа баз данных как услуга), и они начинают появляться на нисходящем направлении того же Gartner. хайп-цикл. Эти платформы не обеспечивали специалистов по данным волшебным образом необходимыми данными, и стало ясно, что для согласования этих платформ данных с тем, что было необходимо специалистам по данным, потребовалось много усилий по проектированию и разработке. Кроме того, вокруг баз данных noSQL развивалось огромное количество шумихи и ожиданий, но в основном это было сосредоточено на потребностях приложений веб-масштаба и гибкой разработке, а не на потребностях анализа данных.

Куда большинство людей попало - на полпути

Этот разрыв между данными и аналитикой привел к разочарованию, разочарованию и неспособности реализовать многие проекты в области науки о данных и аналитики, поскольку часть данных отсутствовала.

К 2015 году большие данные были исключены из цикла шумихи (например, см. Https://www.datasciencecentral.com/profiles/blogs/big-data-falls-off-the-hype-cycle), и мир Аналитика и наука о данных возлагали надежды на новые технологии платформы данных, такие как Apache Spark и Data Lakes.

Введите Data Engineer

В результате родилась роль инженера по данным, и спрос на эту должность резко вырос - к 2020 году, согласно https://www.itjobswatch.co.uk/, 1,5% всех ИТ-вакансий в Великобритании были связаны с Инженерия данных - для сравнения, 1,2% всех ИТ-вакансий рекламировались для веб-разработки:

Примечательно, что еще в 2015 году надежды и ожидания в отношении машинного обучения были на пике. Машинное обучение предложило способ заставить все эти данные работать.

Новая проблема, которую нужно решить - как запустить это в производство?

По мере того, как роль инженера по данным повзрослела, и эти эксперты приступили к работе над устранением всех проблем с источниками и обработкой данных для специалистов по данным, возникла новая проблема - как развернуть все эти модели машинного обучения в производственной среде (т.е. заставить их запускать реальные части бизнеса), теперь, когда специалисты по данным получили доступ к нужным им данным?

К 2019 году машинное обучение перешло на новый уровень и превратилось в отдельный Hype-Cycle Gartner с рассмотрением нескольких типов машинного обучения и техник искусственного интеллекта и сценариев использования: https://twitter.com/kdnuggets/status/ 1234871536391245824

Введите инженера по машинному обучению

Чтобы иметь решение машинного обучения, которое будет ценно для бизнеса, исследовательского института или НПО, в котором оно развернуто, оно должно:

  • Интеграция с живыми источниками данных
  • Будьте надежными, прочными и точными
  • Фактически, может быть использован другими людьми - возможно, многими другими людьми и приложениями.

В конечном счете, машинное обучение или решение «ИИ» - это просто программный продукт, который применяет алгоритмы или математику к некоторым данным.

Для создания интегрированного надежного и масштабируемого программного продукта потребуются системы контроля версий программного обеспечения и автоматизированные тестовые среды для объединения изменений и обновлений в выпуски. Это позволяет группе людей совместно работать над законченным продуктом, выходящим за рамки концепции, продемонстрированной специалистом по обработке данных в блокноте Jupyter (IPython).

Кроме того, это должно быть подкреплено архитектурой, которая может обслуживать отказы оборудования и сети и масштабироваться для удовлетворения спроса.

Наконец, природа домена означает, что приложение будет в значительной степени ориентировано на данные с более сложными требованиями в этой области, чем типичное веб-приложение или транзакционная система. Вероятно, будет много требований к агрегированию больших объемов данных и сложных инженерных аспектов функций данных, возможно, в сочетании с контекстом потоковой передачи больших объемов данных.

Чтобы достичь этого, кто-то должен объединить несколько дисциплин: Архитектура и разработка данных, Наука о данных и статистика и DevOps или разработка программного обеспечения - роль машины Рождение инженера по обучению:

Инженер по машинному обучению не только создает, но и проектирует.

Обладая гибридными знаниями в нескольких областях, инженер по машинному обучению является важной частью процесса проектирования, а не только его реализации.

Часто небольшие компромиссы на этапе науки о данных и моделирования могут привести к огромной эффективности на уровне данных. Кроме того, понимание контекста подхода к кодированию, используемого специалистом по данным, поможет при переводе в развертывание производственного кода. И наоборот, возможность сообщить об ограничениях платформы развертывания кода и платформы обработки данных специалисту по данным на языке, который имеет смысл для специалиста по данным, позволяет учитывать это в подходе к анализу и моделированию.

Таким образом, введение инженера по машинному обучению разрушает междисциплинарные разрозненности и, наконец, приводит к обетованной земле приложения машинного обучения, доставляющего ценность из данных, предоставленных инженером по данным и проанализированных специалистом по данным.