Философия «чем больше, тем лучше», преобладающая в разработке ИИ, приводит к созданию все более и более крупных моделей, особенно для задач, связанных с языком (LLM-s). До сих пор это окупалось, и можно отметить, что связанные с ними архитектурные улучшения могут внести лишь незначительный вклад, в то время как размер моделей, а также обучающих данных, полученных с помощью неконтролируемых методов, является определяющим фактором многих достижений. . Хотя все более крупные модели создают большие проблемы с инженерной точки зрения как с точки зрения потребления энергии, так и с точки зрения вычислительных затрат как на обучение, так и на вывод, они были приняты «беспрекословно» инженерным сообществом машинного обучения, которое до сих пор пыталось приспосабливаться и вводить новшества. от имени включения и развертывания этих типов моделей для практических вариантов использования. Тем не менее, их проблемы выходят за рамки механики (как мы их реализуем), и необходим критический взгляд с точки зрения инженерии ИИ. Что требуется, так это сформулировать гораздо более модульную парадигму в качестве альтернативы, эквивалентную моменту микросервисов для ИИ.

Монолитные универсалы

Распознавание изображений или понимание языка можно рассматривать как общие возможности, полезные в качестве основы для многих более конкретных задач или вариантов использования. В этом смысле текущие большие модели являются универсальными, не в последнюю очередь из-за того, как они обучаются/выпускаются на больших универсальных наборах данных (помечены и курируются, как набор данных ImageNet, или не курируются, как в большинстве неконтролируемых процедур) и потому что они пытаются уловить как можно больше аспектов языка или образов, но ни одного конкретного. Эти модели обеспечивают глобальные возможности или понимание. При их создании мало внимания уделяется повторному использованию, модульности и владению. о различных возможностях этих моделей (отражающих нынешний исследовательский характер разработки ИИ). В этом смысле то, что мы сейчас наблюдаем при разработке ИИ, — это то, от чего отказались как от практики во многих областях разработки программного обеспечения.

Большие модели (т. е. LLM-s) являются ИИ-эквивалентом монолитов.

Недавние усилия были сосредоточены на том, чтобы взять универсальные модели и сделать их лучше для многих конкретных задач все сразу (на ум приходит Pathways/PALM). Этот подход по-прежнему следует схеме монолита, предусматривающей создание отдельных еще более крупных моделей, использование единого процесса обучения и обязательное единоличное владение. Существуют фундаментальные проблемы с попыткой сделать монолитных универсалов лучше в конкретных задачах, то есть лучшими специалистами, сделав их еще больше. Объединение глобальных аспектов со спецификой нескольких доменов предполагает, что два (глобальный и конкретный домены) движутся синхронно, то есть предполагается, что мы находимся в статичном мире, где вещи не меняются так сильно. Это не совсем безопасное предположение в реальном мире, в том числе в языковой области, где многие задачи носят состязательный и динамический характер (фейковые новости, токсичная речь и т. д.).

Специальные области требуют специальных и в значительной степени тщательно отобранных наборов данных, оценок качества и оптимизации, которые лучше их представляют. Процесс специализации должен быть обособлен, принадлежать отдельной группе/организации, ближе к предметной области и с большим опытом. Эта близость к домену позволяет предоставлять/определять более тонкие цели оптимизации и проверки качества, которые лучше подходят для конкретной задачи. Среди прочего, разделение позволяет использовать другую частоту переобучения, а также архитектуру. Это требует другого артефакта модели с отдельным жизненным циклом. Следуя этой философии, можно привести веские доводы в пользу того, чтобы сами крупные универсалы были спроектированы более модульно и в первую очередь направляли/делегировали нужным специалистам (подробнее об этом в другом посте). Неотъемлемые проблемы монолитов, в частности связанные с владением, отсутствием модульности и единым централизованным развертыванием/жизненным циклом, требуют другой парадигмы разработки ИИ: вместо того, чтобы увеличивать модели, используйте отдельных микроспециалистов. Эта парадигма влияет не только на аспекты производительности. Это влияет на процедуры специализации, такие как тонкая настройка или предварительная подготовка, которые могут быть выражены через сочетание универсалов и специалистов, но, что более важно, переопределяет право собственности на тестирование, безопасность и конфиденциальность.

Переосмысление модульности ИИ: универсалы И миллионы (микро)специалистов

Сценарии использования интеллекта характеризуются потребностью в общем глобальном понимании мира или среды, в которой действует агент, вещей, которые являются общими для всего мира, а также потребностью в знаниях и понимании предметной области для конкретных текущих задач, в конечном счете в вещах, которые только применяются к подмножеству среды или даже к конкретным объектам и лицам. Как это переносится на архитектуру ИИ, так это то, что наши решения всегда должны каким-то образом сочетать универсалов и специалистов. Тем не менее, как указывалось выше, они должны быть представлены через отдельные артефакты, чтобы зафиксировать различия в правах собственности, конфиденциальности, жизненном цикле, тестировании, качестве и оптимизации. Процесс модуляризации, предписываемый парадигмой микроспециалиста, распространяется не только на модульизацию кода, как в обычном программном обеспечении. (т. е. в микросервисах), но, что особенно важно, также и для модульизации данных и качества.

Модульность ИИ = модульность кода + модульность данных и качества

Парадигма универсалов и специалистов проявляется во многих, если не во всех практических случаях использования машинного обучения. В рекомендательной или поисковой системе, например, на сайте электронной коммерции, специалист широкого профиля может нести ответственность и быть обученным работе со всем доступным набором данных или каталогом, но для конкретных категорий интересов, которые имеют другое разнообразие или определяют границы владения, специалист модели берут верх, чтобы лучше отражать специфику этих категорий и быть в состоянии отражать изменения более точно и быстрее, просто потому, что они могут лучше подходить для этой конкретной области в дополнение к тому, что они более гибкие и компактные. В конечном счете, специалисты (модели) должны отражать решения и намерения заинтересованных сторон, которых они представляют, и обслуживать их. Это означает, что тот, кто владеет категорией электронной коммерции в приведенном выше примере (бизнес-аналитик/менеджер компании), должен видеть свои намерения, представленные в модели специалиста этой категории, и должен в конечном итоге контролировать, по крайней мере, ее жизненный цикл и качество.

Интересные последствия для различных процессов разработки ИИ и вариантов использования ИИ возникают, если мы переосмыслим их с точки зрения модульности. Мы рассмотрим три случая, а именно то, как универсалы и специалисты могут проявляться в точной настройке, затем подготовке больших моделей и, наконец, сегментации В силу их универсальности. Однако может быть больше областей ИИ, где ось универсального против специализированного поднимает голову. Ось универсальный/специалист является универсальной в обучении. Он определяет шаблоны модульности и сосредоточен на фундаментальных вопросах о том, что должен делать специалист (функциональное поведение и границы, его связь с глобальным универсалом) и кто контролирует жизненный цикл. плюс их определение (с упором на конфиденциальность, развертывание, безопасность и качество). «Измерение модульности», представленное через универсалов и специалистов, в некотором смысле более важно, чем «измерение рассуждений», присутствующее в классических дискуссиях о нейронных и символических архитектурах, ориентированных на механику как мы включаем интеллект.

Измерение модульности важнее, чем измерение аргументации: что и кто против как

Модульная тонкая настройка с помощью универсалов и специалистов

Тонкая настройка, как это практикуется в настоящее время, представляет собой процесс использования модели, обученной на более крупном глобальном наборе данных, и корректировки/настройки ее на другую цель оптимизации и с помощью меньшего специализированного набора данных. Однако в текущем подходе исходная модель, универсальная в нашей номенклатуре, изменяется во время этого процесса. Тонкая настройка естественным образом вписывается в парадигму универсального и специализированного, потому что она представляет собой процесс специализации. Этот процесс важен, потому что как проблемы сегментации, так и проблемы прайминга, описанные в разделах ниже, можно рассматривать как просто разные проявления точной настройки. Чтобы полностью настроить точную настройку на парадигму универсального и микроспециалиста (также известную как модульная тонкая настройка), необходимо изменить критический аспект. Процесс настройки должен оставить большую универсальную модель нетронутой/исправленной после четкого разделения прав собственности и жизненного цикла, и он должен выполнять специализацию/настройку, передавая выходные данные универсальной модели в гораздо меньший специалист, единственная модель, которая меняется во время обучения. Это позволяет специалисту проходить переподготовку гораздо чаще и независимо от специалиста широкого профиля. Это также обеспечивает значительную экономию вычислительных циклов, если выходные данные фиксированного большого универсального алгоритма записываются и повторно используются в течение всего обучения.

Примеры моделей через универсалов и специалистов

Подготовка больших моделей – это процесс, в котором ряд созданных входных данных (подсказок или вводных данных) используется для настройки более крупной модели для изменения поведения в сторону конкретной задачи или области в ее выводах. Прайминг обычно используется в сочетании с LLM-s, но эта концепция является общей и может распространяться на другие области. В классическом примере подготовленные входные данные (подсказки) создаются экспертами, но исследуются интересные направления с помощью праймеров, представляющих собой мягкие подсказки или обученное представление (больше похожее на встраивание) конкретной задачи. В любом случае праймеры представляют собой микроспециалистов в нашем контексте и могут вписаться в парадигму универсалов и специалистов, где праймер представляет специалиста. Процесс подготовки в этом контексте всегда будет обеспечивать созданный/выученный учебник пользовательским вводом во время вывода универсальной модели. Грунтование — это обратная сторона той же монеты модульной точной настройки. Единственная разница заключается в том, где работает специалист - в классической тонкой настройке специалист выполняется, как правило, после/после универсала, а в грунтовке - наоборот. Однако они оба представляют собой один и тот же процесс специализации и связаны схожими соображениями вычислительной производительности и модульности, поэтому прайминг можно рассматривать как нюанс тонкой настройки.

Модель по сегментам: сегментация по универсалам и специалистам

Парадигма микроспециалиста особенно хорошо вписывается в проблему сегментации, очень актуальную для большой группы компаний. Разделение пользователей/продуктов и их взаимодействий на отдельные сегменты — очень типичный подход во многих компаниях. Эти сегменты имеют разную специфику и управляются разными экспертами/менеджерами в предметной области, которые могут контролировать ценовые кампании или другие аспекты бизнеса. Во многих случаях они также «двигаются» по-разному, скажем, модные тенденции для молодых людей (15–20 лет) меняются намного быстрее, чем для пожилых людей (50–60 лет). Сегментация также может быть более глубокой, с определениями тестов и качества или того, для чего мы хотим оптимизировать, расходясь от одного сегмента к другому, в дополнение к расходящимся потребностям в экспериментах (решения, которые работают для одного сегмента, могут быть вредными для другого).

Монолитные универсальные модели, используемые для всех сегментов, могут с трудом охватить сложности конкретных сегментов, которые волнуют бизнес. Кроме того, из-за своей структуры они не смогут «перемещаться/подстраиваться» под скорость отдельных сегментов, а также не смогут иметь тонкие цели оптимизации. Более целенаправленные микроспециалисты по сегментам преодолевают эти ограничения и допускают отдельное владение, отдельный жизненный цикл, отдельные определения/тесты качества и отдельные эксперименты (со стороны заинтересованных сторон, которым принадлежат эти сегменты). Сегментация в этом контексте — всего лишь проявление тонкой настройки. Выражая это через парадигму универсалов и специалистов по сегментам, можно увидеть аналогию с модульным процессом тонкой настройки.

Важность дифференциации сегментов зависит от конкретного варианта использования. Для некоторых проблема сегментации не является столь острой, но для подавляющего большинства компаний сегментация является центральной, и крайне желательна более целенаправленная аналитика по сегментам, при условии, что они обладают операционной сложностью, позволяющей это сделать. Комбинация универсального специалиста, контролируемого центральной командой, и целевых микроспециалистов по сегментам, отражающих решения/намерения сегмента и его владельца, а также фиксирующих основные свойства сегмента (выделенная частота повторного обучения и т. д.). явно превосходит текущие монолитные подходы. В рамках этой парадигмы можно вообразить множество возможностей. Одна из них, имеющая иерархию моделей,каждая из которых представляет собой отдельный объект и контролируется отдельным заинтересованным лицом,начиная с глобального специалиста широкого профиля, который передает специалисту по сегментам, который передает специалисту по подсегментам (например, сегментом будут все телевизоры, а подсегментом — все OLED-телевизоры). Одним из вариантов вышеизложенного может быть наличие специалиста на клиента вместо одного на подсегмент. Эти комбинации отражают взаимосвязь и различия в жизненном цикле между универсалом и несколькими специалистами, которые могут быть задействованы. Они предоставляют множество возможностей для обработки холодного запуска и сценариев с низким объемом данных для длинного хвоста сегментов.

Искусственный интеллект, ориентированный на заинтересованные стороны, и искусственный интеллект, основанный на принципах «папа знает лучше»

В любом случае модульный подход к разработке ИИ, представленный через парадигму универсального и микроспециалиста, требует другой философии для стека машинного обучения, а также другого процесса разработки. Во-первых, специалисты могут и должны чувствовать себя комфортно в режимах с низким объемом данных. Кроме того, люди/стейкхолдеры, которых обслуживает эта парадигма, гораздо более разнообразны по набору навыков и опыту и имеют гораздо больше права голоса в определении/контроле того, что модели должны делать, в отличие от централизации принятия всех решений инженером по ML. / специалист по данным. И последнее, но не менее важное: платформы машинного обучения необходимо преобразовать в автоматизированные модельные фабрики, а не в высокоорганизованные научные лаборатории (преобладающая ситуация и философия ведущих платформах) для создания и управления миллионами моделей, что означает совершенно другой подход и строгость к качестве ИИ и автоматизации, подробнее об этой теме в следующем посте.