Проблема. Sparrow решает задачу создания более безопасного диалогового агента. В частности, проблема состоит в согласовании поведения агента с человеческим суждением, чтобы вести полезный, правильный и безобидный разговор.

Метод. Чтобы создать агента диалога, авторы исходят из языковой модели 70B, шиншиллы, подсказанной диалогом (DPC). Судьи-люди предоставляют обратную связь о своем взаимодействии с моделью, о нарушении правил и предпочтениях в ответах. Набор правил не является исчерпывающим, но включает такие виды вреда, как дискриминация, исключение, токсичность, дезинформация и взаимодействие человека с компьютером.

Оценщики-люди собирают данные, взаимодействуя с агентом двумя способами. Выполняя предпочтение ответа за ход, люди выбирают предпочитаемый следующий ответ из одной или нескольких конкурирующих моделей, чтобы продолжить диалог. Для состязательного исследования участники стремятся привести модель к нарушению заданного правила.

Затем эти данные используются для обучения двух других нейронных сетей, также точно настроенных на основе Chinchilla 70B, которые научатся аппроксимировать человеческое суждение: модель вознаграждения предпочтения (предпочтение RM) и модель вознаграждения за нарушение правил (Rule RM). Preference RM учится прогнозировать оценку на основе человеческих предпочтений между ответами-кандидатами, а Rule RM — это классификатор, который оценивает вероятность того, что Воробей нарушит правило в заданном диалоге.

Базовая модель (DPC) затем настраивается контролируемым образом (через потерю LM) на собранных диалогах, оцениваемых как предпочтительные и соответствующие правилам. Данные о предпочтениях за ход используются для обучения модели выработке предпочтительного ответа, а хороший состязательный диалог для дальнейшего усиления отправной точки для следующей схемы обучения с подкреплением.

Эта теперь предварительно обученная базовая модель обучается с использованием обучения с подкреплением с преимуществом актер-критик. В этой структуре сеть акторов изучает политику сопоставления состояния (утверждение + контекст диалога) с действием (следующий лучший ответ), в то время как критик учится оценивать ценность каждого действия (продиктованного Предпочтением RM + Предпочтением RM). Контексты диалога выбираются из общедоступных наборов данных, разговоров с людьми, подсказок из модели состязательного языка, обученной генерировать состязательные вопросы, и данных самоигры, накопленных в ходе обучения RL.

Чтобы все 70 миллиардов моделей параметров (политика и значение из A2C, учитель, 2 предпочтения RM, 1 правило RM) поместились в памяти, они разделяют ствол из 64 слоев, и только 16 верхних слоев настроены для обучения. Серые слои проходят предварительную подготовку, синие слои настраиваются перед RL, а розовые тренируются во время RL.

Забрать. Определение определенного набора правил на естественном языке помогает более точно характеризовать сбой модели, обучать целевые классификаторы и людей-судей в направлении интересующего режима сбоя. Использование многоцелевого обучения с подкреплением на основе отзывов людей успешно максимизировало уровень предпочтения и минимизировало нарушение правил. Встроенные доказательства помогают улучшить правильность и проверяемость заявления агента. Наконец, подробный анализ полученного агента диалога показывает, что метод может улучшить соблюдение правил, одновременно усиливая проблемы справедливости распределения.

Результаты. В условиях состязательного зондирования Sparrow работает лучше для большинства правил, но не для всех.

Авторы обнаруживают, что люди находят ответы модели с доказательствами правдоподобными и подтверждаются в 78% случаев. Исследование правильности в открытом информационном диалоге (не враждебном) соответствует действительности в 80% случаев. Наконец, Воробей в целом соглашается с оценщиками в 90% случаев относительно того, следует ли искать доказательства в поддержку своих утверждений. Механизмы, представленные в этой статье, являются надежной отправной точкой для надежного выравнивания моделей.

Источник. Дополнительную информацию см. в [бумаге]. Все цифры взяты из бумаги.