Из моих каналов в LinkedIn и Twitter видно, что 2023 год — год большой языковой модели. Open AI запустила лучшую маркетинговую кампанию, какую только возможно, когда они потратили ____ долларов на выпуск Chat GPT для бесплатного публичного доступа. Это зажгло оправданный и прохладный огонь в отношении больших языковых моделей и генеративного текста. Однако в «реальном» ИИ существует множество тенденций и событий, которые меня очень радуют и которые не включают в себя большие языковые модели. Итак, сегодня я познакомлю вас с четырьмя тенденциями, за которыми мне, как специалисту по науке о данных, больше всего интересно наблюдать:

Современная установка Pip

Хотя мы начинаем с HuggingFace вплотную к LLM и Chat GPT, я думаю, интересно отметить тенденцию, которую они начали в сфере машинного обучения в целом. HuggingFace — это платформа, позволяющая пользователям публично обмениваться моделями и наборами данных с миссией демократизации ИИ, то есть, по сути, сделать ИИ более простым в использовании и доступным для всех. В более широком сообществе ML они в основном известны своей миссией и своей библиотекой трансформеров с открытым исходным кодом. Это позволяет командам создавать, настраивать и оценивать модели с помощью API и SDK HuggingFace вместо того, чтобы создавать модели с нуля.

И хотя Трансформеры, возможно, являются наиболее обсуждаемыми современными моделями, выпускаемыми в наши дни, они, конечно, не единственные команды со сложной архитектурой, которые создают с нуля.

Однако интересно наблюдать за тем, как разработчики других сложных архитектур продвигаются к демократизации доступа к своим архитектурам через API.

Примечательно, что Ultralytics, команда, создавшая невероятно популярную архитектуру компьютерного зрения YOLO v8, внесла самое большое изменение в архитектуру с момента перехода с даркнета на PyTorch, когда они создали API-интерфейс HuggingFace-esque и Python SDK для разработчиков. Кроме того, NVIDIA стремится демократизировать системы рекомендаций с помощью своей библиотеки с открытым исходным кодом Merlin, которая предоставляет API высокого уровня для классических и современных моделей рекомендаций.

Поскольку все больше команд смогут получить доступ к, казалось бы, недостижимым архитектурам, это может стать рассветом внедрения ИИ, о котором многие говорили в течение многих лет.

Сетка данных

Как правило, действенная и итеративная наука о данных не может существовать в организациях без сильных практик обработки данных. Эти методы направлены на создание организованного масштабируемого хранилища данных, к которому можно легко и эффективно получать доступ и трансформировать его для различных задач. Недавно команды перешли от индивидуальных хранилищ данных к архитектурам озер данных. Озера данных взяли эти отдельные хранилища и поместили их в единый источник хранения данных, которым легко управляет команда инженеров данных.

В последнее время, особенно в связи с новым разговором о данных как продукте, наблюдается толчок к децентрализованному управлению данными с использованием ячеистой архитектуры данных.

Сетка данных позволяет передать ответственность командам, работающим в конкретной области. Вместо централизованного озера данных сетка данных поддерживает распределенные системы данных.

Как человек, который часто говорит о качестве данных, я рад узнать больше о лучших практиках владения наблюдаемостью данных с помощью сетки данных. В то время как в настоящее время при наличии озер данных основная группа разработчиков данных владеет всеми движениями по обеспечению качества данных, сетка данных дает возможность различным командам в предметной области владеть качеством своих данных. Это означает, что у доменных групп есть масштабируемый, устойчивый и доступный способ ответить на более точные вопросы, которые их волнуют, — касающиеся работоспособности приема данных, схемы или понимания их восходящих или нисходящих зависимостей.

Организации, ориентированные на данные/систему

В 2022 году Эндрю Нг открыл новый этап прикладного машинного обучения, когда он показал, что большее внимание к данным, поступающим в вашу систему машинного обучения, приводит к лучшим результатам, чем команды, сосредотачивающиеся на построении и итерации самой модели машинного обучения. Я полностью согласен с этим подходом, ориентированным на данные, и он приводит к большей тенденции в отрасли к созданию более мощных систем MLOps, а не просто инструментов.

Эти дебаты развернулись благодаря поддержке универсалов в области науки о данных. Учитывая такое большое количество шагов и коммуникаций, которые необходимо осуществить между командами для создания, внедрения и тестирования модели ML, лидеры отрасли начали настаивать на создании специалистов по науке о данных широкого профиля, которые будут владеть всей системой. Это означает, что вместо того, чтобы передавать разные этапы процесса разным командам, один человек или команда будет контролировать весь процесс.

Однако в настоящее время этот процесс состоит из множества этапов и ответственности, поскольку существует много знаний предметной области, которые существуют в рамках передачи проектов между командами.

Как специалист по данным, одна из моих любимых шуток — сравнение того, действительно ли я хочу знать, как работает Kubernetes, с обычным вопросом: «Хотите ли вы знать, в какое время вы умрете?» В этом мире есть вещи, которые мне не суждено знать.

Организациям, вероятно, потребуются сильные команды платформы ML, которые будут запутывать большую часть базовой инфраструктуры MLOps, чтобы перейти к универсальным системам данных, позволяя «универсальным специалистам» владеть системой.

Кроме того, будет невероятно интересно увидеть идейное лидерство этих команд платформы ML, поскольку они разрабатывают лучшие практики для организационных платформ. Как человек, глубоко инвестирующий в образовательные программы и контент в области науки о данных, я невероятно воодушевлен постоянно растущей зрелостью в этой области. Хотя надлежащее CI/CD и промышленное машинное обучение больше не являются «современными» (как мы увидим далее), на самом деле большая часть этого по-прежнему остается племенным знанием внутри пространства. Я воодушевлен стремлением организаций и отдельных лиц делиться своими знаниями и передовым опытом и надеюсь, что следующий этап учебных программ по науке о данных выйдет за рамки моделей, ориентированных на промышленность/систему.

Системы машинного обучения в реальном времени

Наконец, мы начинаем видеть, как команды ML достигают нового уровня зрелости MLOps. Ведущие организации, которые уже освоили свои CI/CD, начали создавать инфраструктуру для работы систем машинного обучения в реальном времени, золотого стандарта современных MLOps.

Системы машинного обучения в реальном времени — это системы, которые обновляются и работают в реальном времени или по требованию. Это отличается от традиционной системы моделей пакетного машинного обучения, где модели часто обучаются и переобучаются с помощью некоторого временного или ситуационного триггера. Архитектура, лежащая в основе этого постоянного обновления, была создана и, по мнению некоторых, почти усовершенствована, благодаря монолитной архитектуре TikTok. Однако многие другие крупные технологические лидеры, такие как Facebook, начали следовать этому примеру.

Учитывая, что «Голиафы» инвестируют в машинное обучение в реальном времени, будет интересно посмотреть, как на это отреагируют другие команды машинного обучения. Для большинства команд часто есть другие легко висящие плоды в области CI/CD или производственных MLOps, на которых им следует сосредоточиться перед капитальным ремонтом инфраструктуры (вместо этого инвестируя в последние разделы системно-ориентированной инфраструктуры).

Но для многих отраслей, таких как реклама или рекомендации контента, внедрение машинного обучения в реальном времени создает принципиально другой и лучший продукт — вспомните TikTok и домашнюю страницу Facebook 2010-х годов.

Кроме того, единственное, что я знаю о залах заседаний, это то, что они не любят оставаться позади. Итак, мне интересно видеть, какие организации отказываются от обслуживания систем ради новых, и, в зависимости от приложения, будет ли это того стоить.