Адаптивный ИИ: создание ценности для бизнеса в меняющемся мире

Нынешние темпы развития искусственного интеллекта (ИИ) и базовых моделей достигли беспрецедентных высот, что вызвало недвусмысленный энтузиазм у общественности и растущий спрос со стороны отрасли на включение ИИ в свои бизнес-процессы. Хотя изменения — единственная константа в нашем мире, по иронии судьбы дизайн этих самых систем искусственного интеллекта делает их высеченными на камне. Это может привести к серьезным последствиям для вашего бизнеса, полагающегося на такой статический ИИ.

Своевременным примером является большая языковая модель openAI GPT-4. Изучая новые данные и пытаясь включить новые функции, о которых просили пользователи, производительность GPT-4 со временем снизилась. Таким образом, ключевым фактором для этих моделей будет способность использовать новые возможности, сохраняя при этом то, что уже можно делать. Другими словами, Адаптивный ИИ — наша сегодняшняя тема.

Вам интересно, что такое адаптивный ИИ и как использовать его для вашего бизнеса? Мы рассмотрим, «какие» данные использовать и «когда» адаптировать. И с этими знаниями в нашем рюкзаке мы можем использовать непрерывное обучение для создания вашей собственной персонализированной модели большого языка, адаптированной к вашим потребностям. Давайте погрузимся в это!

Развивающийся мир побеждает статичный ИИ

В мире могут произойти радикальные изменения, например, многие компании внезапно пострадали от COVID или расширенных правил, таких как GDPR. Но изменения также происходят непрерывно и более тонко внутри общества. Это проявляется в растущей цифровизации, что приводит, например, к ежегодному сокращению количества почтовых писем, подлежащих обработке, в то время как количество посылок резко возрастает с ростом количества покупок в Интернете.

Все эти изменения в нашем постоянно развивающемся мире отражаются в данных, которые мы используем для обучения системы ИИ. Это означает, что при настройке вашего ИИ и его вводе в эксплуатацию всего лишь вопрос времени, когда он будет делать ошибочные прогнозы об устаревшем мире, который не соответствует сегодняшнему дню. Это может привести к значительным альтернативным издержкам для вашего бизнеса.

Чтобы подчеркнуть важность реагирования на изменения, давайте рассмотрим Watson Health компании IBM, которая начиналась с грандиозных амбиций революционизировать лечение рака, но в конечном итоге во многих случаях не смогла дать полезных или безопасных рекомендаций. Низкая производительность усугублялась быстро развивающейся медицинской практикой и рекомендациями, которые опережали обучение и сбор данных для ИИ. Проект нанес существенные финансовые потери в размере более 4 миллиардов долларов и репутационному ущербу для IBM.

Короче говоря, выявление изменений в ваших данных и быстрая адаптация к ним с помощью адаптивногоИИ — это ценный актив для достижения конкурентного преимущества. Это может повысить эффективность затрат в процессах за счет точных прогнозов и предоставления достоверной информации по всей цепочке создания стоимости компании.

Адаптация ИИ к меняющемуся миру

Далее я покажу, как внедрить адаптивность в ваш ИИ, ответив на вопрос, какие данные учитывать для вашего варианта использования, и точно определив 'когда' ваш ИИ должен быть обновлен.

«Какие» данные использовать.

Есть два сценария, которые следует учитывать при включении новых данных: быстрая адаптация и непрерывное обучение.

Быстрая адаптация предполагает быструю адаптацию к новой ситуации путем избавления от устаревших данных и знаний в нашем ИИ. Этот процесс требует не только своевременного обновления ИИ, но и адаптации всего с несколькими образцами данных. Один из способов добиться этого — полагаться на общедоступную предварительно обученную модель или использовать эффективные подходы с несколькими шагами, разработанные для этой цели.
Непрерывное обучение, с другой стороны, фокусируется на включении данных из новой ситуации, сохраняя при этом знания, полученные нашим ИИ из прошлых данных. В отличие от людей, ИИ имеет тенденцию забывать ранее изученную информацию при изучении новых вещей. Вот почему полное переобучение моделей ИИ является распространенным, хотя и дорогостоящим стандартом.
Методы непрерывного обучения представляют собой эффективную альтернативу, позволяя напрямую обучаться на новых данных с меньшими затратами по сравнению с полным переобучением. Эти методы также не позволяют ИИ забыть то, что он ранее выучил, используя такие механизмы, как замораживание важных весов модели или репетиция на основе небольшого буфера старых точек данных. Чтобы справиться с колебаниями во времени, как в GPT-4, методы непрерывного обучения станут ключевым компонентом для поддержки LLM, которые могут со временем поддерживать и даже улучшать свою производительность.

«Когда» адаптироваться

Теперь, когда мы понимаем два сценария быстрой адаптации и непрерывного обучения, давайте сосредоточимся на «когда», чтобы фактически обновить наш ИИ новыми данными.

Для быстрой адаптации мы используем статистические тесты для обнаружения изменений в наших данных, к которым ИИ не готов. При запуске эти тесты вызывают ручное расследование для определения источника изменения, что может привести к повторному обучению ИИ. Другой подход заключается в периодическом повторном обучении модели, чтобы поддерживать ее в актуальном состоянии. Brussels Airport Company иллюстрирует это, периодически пересчитывая свои прогнозы с данными за предыдущий месяц.

Для непрерывного обучения, когда переобучение зависит от наличия достаточного количества новых данных для обновления вашего ИИ. Эти данные могут быть получены на основе отзывов пользователей или приобретенного бюджета на маркировку, но также могут быть получены в результате желания расширить область применения ИИ. Например, если в нашем продукте есть классификатор, позволяющий отличать автомобили от велосипедов, но теперь он должен включать ховерборды, непрерывное обучение может эффективно расширить возможности ИИ. Мы можем добавлять новые функции и удовлетворять изменяющиеся потребности, не начиная каждый раз с нуля.

Основываясь на нашем понимании что и когда непрерывного обучения, давайте теперь углубимся в особый вариант использования создания персонализированного помощника ИИ для вашей компании.

Вариант использования: персонализированный ИИ-помощник

Такие модели, как Chat-GPT и варианты с открытым исходным кодом, продемонстрировали огромные скачки в понимании нашего повседневного человеческого языка. Такие помощники ИИ открывают возможности для повышения эффективности многих ручных процессов в компаниях. Например, сотрудники могли напрямую взаимодействовать через чат с ИИ-помощником для быстрого извлечения информации из широкого спектра документов компании. Однако, хотя эти помощники ИИ удивительно хороши в том, что они видели: общий язык, это также является их ограничением. Они не обязательно видели жаргон, используемый именно в вашей компании!

Именно здесь в игру вступает непрерывное обучение: хотя мы хотели бы сохранить обширные знания этих моделей ИИ о мире, мы также хотим адаптировать их к нашим конкретным потребностям. Однако, как мы видели, нейронные сети склонны к катастрофическому забыванию при изучении нового материала!

Станет ли ваш ИИ-помощник совершенно бесполезным, поскольку он забудет все свои изящные трюки, такие как обобщение текстов, только потому, что мы учим его жаргону нашей компании?

Ну не обязательно…

Создание мастера вашей торговли

С одной стороны, забывание, кажется, всплывает на поверхность, поскольку GPT-3.5 и GPT-4 резко колебались в своей производительности в течение 2 месяцев, поскольку OpenAI выпускает обновления для повышения безопасности. Из-за его нераскрытого и проприетарного характера мы не можем знать наверняка, что забывание происходит из-за настройки их исходных моделей или по другим причинам, но, по крайней мере, мы можем согласиться с тем, что как сложность этих моделей, так и обширность их данных заставляют дрейфовать. в их исполнении неизбежны.

С другой стороны, большие языковые модели содержат обширные знания, которые не обязательно интересны для вашего варианта использования. С этой точки зрения забывчивость не является катастрофой, так как мы можем настроить модель от мастера на все руки до эксперта в жаргоне вашей компании. Простой тонкой настройки модели на ваши данные может быть достаточно, не прибегая к более сложным стратегиям непрерывного обучения. В идеале вы должны создать комплексный набор данных для тестирования, который содержит не только жаргон вашей компании, но и данные для потенциально важных задач, таких как обобщение текста. Вы можете проверить LLMops, чтобы узнать больше о таких передовых методах.

Еще одна серьезная проблема остается, даже с простой тонкой настройкой. Большие модели поставляются с еще большей инфраструктурой, поэтому давайте посмотрим, как мы можем справиться с этим.

Легкая персонализация

Большие языковые модели обычно содержат порядка миллиардов параметров, и их обучение приводит к огромным вычислительным затратам, исчисляемым миллионами долларов. Хорошая новость заключается в том, что мы можем полностью повторно использовать эти инвестиции из свободно доступных моделей с открытым исходным кодом. Начиная с такой общей языковой модели, мы теперь можем адаптировать ее к жаргону нашей компании, предоставляя (насколько это возможно) текст, содержащий определенный жаргон. Тем не менее, даже простая настройка этих моделей остается дорогостоящей из-за их огромных размеров.

К счастью, недавние исследования предоставили экономически эффективную альтернативу передаче новых знаний. Низкоранговая адаптация (LoRA) обучает крошечную дополнительную модель вместо всей языковой модели, в результате чего для GPT-3 обучается до 10 000 раз меньше параметров! Эту крошечную модель можно развернуть и добавить к исходной модели, чтобы включить в нее изученный жаргон. Теперь обучение может проходить только на одном графическом процессоре за несколько дней, а не месяцев! И самое главное, мы можем использовать его для создания нашего адаптивного ИИ, поскольку он полностью совместим с большинством методов непрерывного обучения.

Не забывайте о постоянном обучении

Что, если мы обнаружим в наших тестовых данных, что модель забывает о важной задаче, такой как обобщение текста, при точной настройке с помощью LORA? Можем ли мы предотвратить упадок, аналогичный обновлениям OpenAI для моделей GPT?

Оказывается, мы можем перестать забывать, репетируя лишь очень небольшую часть (‹1%) задач, которые хотим сохранить! Это большая победа по сравнению с миллионами точек данных, которые потребуются для обучения обобщению с нуля. Репетиция для ИИ очень похожа на то, что делают люди; пересматривая то, чему он научился раньше. Поэтому нам нужно полагаться на инженеров ИИ, чтобы поделиться подробностями о том, какие данные модель видела раньше. Это неприемлемо для проприетарных моделей, таких как GPT, но, к счастью, мы можем положиться на модели с открытым исходным кодом, такие как Llama от Meta, в которых это очень подробно описано. Фантастика, это добавляет последний ингредиент к нашему рецепту персонализированного помощника ИИ!

В заключение следует отметить, что катастрофическое забывание не ограничивается только LLM, поскольку генеративный ИИ ведет те же битвы. В моделях генеративного ИИ, таких как DALL-E и Stable Diffusion, целью является создание изображений на основе описания, такого как милая собака. При точной настройке модели для создания изображений вашей собственной собаки исследования в Google показывают, что модель вообще забывает, что такое собака. Их подход непрерывного обучения использует исходную модель (которая все еще знает, что такое собака), чтобы научить нашу новую модель собаке и, следовательно, избежать забывания. Сочетая этот подход с эффективностью памяти LoRA, теперь вы даже можете настроить генеративную модель ИИ на своем собственном устройстве.

Заключение

В этом посте я рассказал вам о невероятном потенциале адаптивного ИИ, готового решать постоянные проблемы, возникающие в нашем быстро меняющемся мире. Адаптивный ИИ выполняет две важные функции:

Это позволяет быстро вносить коррективы, согласовывать прогнозы вашего бизнеса с реальными сценариями и
Он предоставляет экономичный способ расширить возможности существующих моделей новыми данными или задачами. Используя преимущества подходов непрерывного обучения, мы можем создать персонализированного помощника ИИ за небольшую часть традиционных затрат, не давая ИИ забыть.

Как говорится,

«Единственная постоянная в жизни — это перемены».

Итак, почему наши модели ИИ должны отличаться? С адаптивным ИИ давайте позаботимся о том, чтобы они не просто участвовали в изменениях, но и возглавляли их!

Понравилось чтение? Не стесняйтесь оставлять комментарии, подключаться или обращаться по любым вопросам, и давайте продолжим учиться вместе.

Адаптивный ИИ: создание ценности для бизнеса в меняющемся мире