Объяснимость больших языковых моделей

Недавно я смотрел презентацию профессора Кристофера Поттса из Стэнфордского университета, где он упомянул, что если мы собираемся доверять моделям больших языков (LLM), нам нужно лучше понять, как они приходят к их ответы.

Это затрагивает одну из ключевых проблем LLM — их необъяснимость. Они настолько сложны, что представляют собой черные ящики, и мы не знаем, как они нашли ответы на свои вопросы. Чем сложнее модель, тем менее прозрачной она становится. Это противоположно тому, что нужно — объяснимый ИИ (XAI), где ответы можно объяснить.

Это становится проблематичным в таких областях, как здравоохранение, финансы и право, где пользователи должны иметь четкое представление о том, как модель пришла к своему решению.

Профессор Поттс сравнил два разных подхода к использованию LLM, один из которых, как мы покажем, может быть использован для того, чтобы сделать LLM более объяснимой.

Как работают большие языковые модели

LLM изучают статистические закономерности совпадения в последовательностях токенов (слов), чтобы предсказать вероятность последовательности слов. Они используют эту статистику для определения вероятности появления следующего слова в последовательности.

Чем длиннее последовательность, тем выше вероятность того, что она может сойти с рельсов и сгенерировать текст, который кажется правдоподобным, но неточным.

ChatGPT признал, что ему нельзя полностью доверять в отношении предоставления фактов, когда я спросил его, как он генерирует ответ: «Мои ответы генерируются на основе статистических закономерностей в данных, на которых я обучался, и могут не всегда отражать нюансы реальной жизни. ситуации».

По сути, он говорит, что информация, которую он предоставляет, может быть вымышленной.

Подход LLM для всего

Профессор Поттс обсудил два подхода к использованию LLM — один, который он называет подходом «LLM для всего», а другой — «обучение в контексте, дополненное поиском».

При использовании LLM для всего нет отдельного средства извлечения необходимой информации — LLM делает все. Модель действует как хранилище знаний и языковая модель. По его словам, это просто становится «большой непрозрачной моделью».

Он говорит, что если у вас есть «большая непрозрачная модель» (черный ящик), вы действительно не можете доверять ей, потому что не знаете, откуда взялись данные, которые дали ваш ответ. Теперь у вас есть проблема надежности и объяснимости.

Здесь он указывает на то, что я вижу в сути проблемы: LLM, такие как ChatGPT, являются не моделями знаний, а языковыми моделями.

Вот как их следует использовать — как языковые модели, и мы должны использовать их сильные стороны, такие как синтез информации.

Вот тут-то и появляется подход, основанный на поиске.

НЛП, дополненное извлечением

С помощью расширенного поиска профессор Поттс обсуждает, как поисковик находит релевантную информацию в большом корпусе, используя нейронный поиск для поиска документов, наиболее похожих на запрос. Затем эта релевантная информация передается в LLM, где он может синтезировать информацию.

Как утверждает профессор Поттс, вы можете взять соответствующие документы и «объединить их в единый ответ, возможно, напрямую удовлетворяющий потребности пользователя в информации». Одним из преимуществ этого является то, что пользователю больше не нужно читать несколько разных извлеченных документов, чтобы найти ответ. LLM может синтезировать информацию из соответствующих документов в единый ответ.

Это не только упрощает жизнь пользователя, но и помогает решить проблему объяснимости.

С ретривером вы знаете, откуда берутся результаты. Вы знаете источник соответствующей информации, которая была передана LLM для создания ответа. Это помогает решить проблемы объяснимости и надежности, связанные с LLM.

Векторные базы данных: путь к объяснимости

Векторные базы данных — популярный способ реализации функции ретривера. Например, предприятие может индексировать свои собственные данные в векторной базе данных и использовать их для извлечения соответствующей информации для предоставления LLM. Это может помочь менеджеру с такой задачей, как просеивание различных источников данных, таких как электронные письма, заметки и отчеты, для поиска конкретной информации.

База данных векторов может извлекать информацию и передавать ее LLM. Затем менеджер может предложить LLM такие задачи, как синтез информации из различных источников в единый ответ или обобщение информации из каждого из источников.

База данных векторов может предоставить идентификаторы документов для извлеченных документов, поэтому вы знаете точные источники информации, которые использует LLM.

Это делает LLM менее «черным ящиком», обеспечивая лучшую объяснимость, прозрачность и надежность. Как упоминалось ранее, это критически важные элементы при рассмотрении вопроса об использовании LLM в таких областях, как здравоохранение, финансы и юриспруденция, где пользователям необходимо знать, как модель пришла к своему ответу.

Избавление от черного ящика

Как заявил профессор Поттс, подход «LLM для всего» ведет к «большой непрозрачной модели», которая представляет собой черный ящик, которому действительно нельзя доверять или объяснить.

Предложенный им подход «обучение в контексте, дополненное поиском» решает проблему объяснимости. Он добавляет ретривер для передачи соответствующей информации LLM. Поскольку источник этой информации известен, теперь у вас есть более прозрачная и надежная модель.

Поэтому для вашего следующего приложения НЛП сделайте его более объяснимым, заслуживающим доверия и менее черным ящиком, используя векторную базу данных в качестве средства извлечения для подачи релевантных и прозрачных данных в ваш LLM. Ваши пользователи будут вам за это благодарны.