1. Управление моделями большого языка с помощью подсказки направленного стимула (arXiv)

Автор: Зэкун Ли, Баолинь Пэн, Пэнчэн Хэ, Мишель Галлей, Цзяньфэн Гао, Сифэн Янь.

Аннотация: Мы представляем новую структуру, Directional Stimulus Prompting, которая использует настраиваемую языковую модель (LM) для обеспечения руководства для модели замороженного большого языка (LLM) «черный ящик» для последующих задач. В отличие от предыдущей работы, которая вручную или автоматически находит оптимальное приглашение для каждой задачи, мы обучаем LM политики генерировать дискретные токены в качестве «направленного стимула» для каждого ввода, который является подсказкой/подсказкой, такой как ключевые слова статьи для обобщения. Затем направленный стимул объединяется с исходным входом и подается в LLM, чтобы направить его генерацию к желаемой цели. Политика LM может быть обучена с помощью 1) контролируемого обучения на аннотированных данных и 2) обучения с подкреплением из офлайн и онлайн-вознаграждений для изучения направленного стимула, который лучше согласует LLM с человеческими предпочтениями. Эта структура гибко применима к различным LM и задачам. Чтобы проверить его эффективность, мы применяем нашу структуру к задачам подведения итогов и генерации диалоговых ответов. Экспериментальные результаты показывают, что это может значительно улучшить производительность LLM с небольшим набором обучающих данных: T5 (780M), обученный с использованием 2000 образцов из набора данных CNN/Daily Mail, улучшает производительность Codex (175B) на 7,2% в ROUGE-Avg. баллы; 500 диалогов повышают общую оценку на 52,5%, достигая сравнимой или даже лучшей производительности, чем у полностью обученных моделей в наборе данных MultiWOZ.

2.Могут ли большие языковые модели изменить предпочтения пользователя неблагоприятным образом? (архив)

Автор : Варшини Субхаш

Аннотация. Предварительно обученные большие языковые модели (LLM) становятся все более мощными и широко распространенными в основных приложениях, таких как личный помощник, диалоговая модель и т. д. По мере того, как эти модели совершенствуются в определении пользовательских предпочтений и предоставлении индивидуальной помощи, возникает все большая озабоченность. о способности этих моделей влиять, изменять и, в крайнем случае, манипулировать пользовательскими предпочтениями враждебно. Проблема отсутствия интерпретируемости этих моделей в условиях состязательности остается в значительной степени нерешенной. В этой работе делается попытка изучить враждебное поведение в пользовательских предпочтениях с точки зрения исследования внимания, объединения красных команд и анализа белого ящика. В частности, он дает обзор существующей литературы с высоты птичьего полета, предлагает образцы красного объединения для диалоговых моделей, таких как ChatGPT и GODEL, и исследует механизм внимания в последнем для неконфликтных и враждебных настроек.