Стежок во времени экономит девять: обнаружение и смягчение галлюцинаций LLM путем проверки…

Документ: https://arxiv.org/abs/2307.03987

Авторы: Нирадж Варшней, Вэньлинь Яо, Хунмин Чжан, Цзяншу Чен и Дун Юй.

Недавно разработанные большие языковые модели, такие как GPT-3, InstructGPT, PaLM, LLaMA и некоторые другие, показали замечательную производительность в широком диапазоне задач понимания языка. Кроме того, было показано, что они обладают впечатляющей способностью генерировать плавный и связный текст. Несмотря на все эти возможности, их склонность к «галлюцинациям» серьезно снижает их надежность и ограничивает их широкое применение в реальных приложениях.

Галлюцинация в контексте языка относится к генерации текста или ответов, которые кажутся синтаксически правильными, плавными и естественными, но на самом деле неверны, бессмысленны или неверны предоставленному источнику. Эти галлюцинации могут привести к серьезным последствиям, таким как распространение дезинформации и нарушение конфиденциальности. Таким образом, в этой работе мы сосредоточимся на ключевой проблеме «обращения» к галлюцинациям больших языковых моделей.

Мы предлагаем активно «обнаруживать» и «смягчать» галлюцинации в процессе генерации. Это очень важно, поскольку мы показываем, что сгенерированное предложение вызывает галлюцинации чаще, когда модель уже галлюцинирует в своих ранее сгенерированных предложениях для ввода. Таким образом, активное обнаружение и смягчение галлюцинаций также важно для предотвращения распространения галлюцинаций в впоследствии сгенерированных предложениях. Мы разделяем наш подход на два этапа: обнаружение и смягчение последствий.

На этапе обнаружения галлюцинаций мы сначала идентифицируем потенциальных галлюцинаций, т. е. ключевые «понятия» сгенерированного предложения.
Затем, используя логит-выходные значения модели, мы вычисляем «неопределенность» модели по выявленным понятиям. Мы демонстрируем, что эта неопределенность дает сигнал для галлюцинации. Однако мы отмечаем, что это дополнительный сигнал, а не необходимое требование для нашего подхода.
Затем мы проверяем правильность «неопределенных» понятий с помощью процедуры проверки, в которой мы: (а) создаем запрос, который проверяет правильность информации, относящейся к понятию, (б) извлекаем знания, относящиеся к проверочному вопросу, (в) отвечаем на проверочный вопрос, используя полученные знания, и проверяем соответствующую информацию в сгенерированном предложении для обнаружения галлюцинаций.

Затем следует этап смягчения галлюцинаций, на котором мы
«исправляем» потенциально галлюцинирующее предложение, используя полученное знание в качестве доказательства. На рис. 1 показаны ключевые этапы нашего подхода.
Кроме того, мы проводим систематическое и масштабное исследование, изучая различные методы для достижения цели каждого из этапов.

Мы разрабатываем экспериментальную установку, в которой мы предлагаем модели писать на темы из разных областей, таких как спорт, политика, музыка, литература и т. д. Затем мы аннотируем правильность первых пяти сгенерированных предложений для каждой темы. Сначала мы демонстрируем индивидуальную эффективность наших методов обнаружения и смягчения последствий. В частности, метод обнаружения обеспечивает воспоминание примерно на 88%, а метод смягчения успешно подавляет 57,6% правильно обнаруженных галлюцинаций. Важно отметить, что наша методика смягчения не вносит новых галлюцинаций даже в случае неправильно обнаруженных галлюцинаций, т. е. ложных срабатываний. Затем мы показываем, что предложенный подход к активному обнаружению и смягчению успешно снижает галлюцинации модели GPT-3 в среднем с 47,5% до 14,5%. Мы проводим тщательный анализ, который приводит к нескольким интересным и важным выводам. Наконец, мы публикуем наш код и аннотации корректности, которые также облегчат систематические будущие исследования по борьбе с галлюцинациями.

Ознакомьтесь с полным документом на https://arxiv.org/abs/2307.03987.

Стежок во времени экономит девять: обнаружение и смягчение галлюцинаций LLM путем проверки…

Вопросы по теме