Публикации по теме 'rlhf'


Резюме: Сосредоточение человеческих усилий на маркировке контролируемого обучения с помощью нейронной чувствительности
20 июля 2023 г., Выбор управляемого теста чувствительности нейронов для тестирования глубокого обучения — Донг Хуан1, Цинвэнь Бу23, Ичао Фу, Юхао Цин, Бочэн Сяо, Хеминг Цуй Глубокие нейронные сети (DNN) добились замечательных результатов во многих областях, таких как компьютерное зрение и обработка естественного языка. Однако, как и любая программная система, DNN могут иметь дефекты, которые приводят к неправильному или неожиданному поведению. Чтобы обнаружить такие проблемы,..

Обучение с подкреплением на основе обратной связи с человеком (RLHF)
Обучение с подкреплением и обратной связью с человеком (RLHF)  – это метод обучения больших языковых моделей (LLM). Вместо того, чтобы обучать LLM просто предсказывать следующее слово, они обучаются с помощью сознательной петли обратной связи человека, чтобы лучше понимать инструкции и генерировать полезные ответы, которые сводят к минимуму вредные, ложные и / или предвзятые результаты. RLHF против. Без RLHF LLM обучаются на большом количестве текстовых данных и способны..