Обучение с подкреплением и обратной связью с человеком (RLHF) – это метод обучения больших языковых моделей (LLM). Вместо того, чтобы обучать LLM просто предсказывать следующее слово, они обучаются с помощью сознательной петли обратной связи человека, чтобы лучше понимать инструкции и генерировать полезные ответы, которые сводят к минимуму вредные, ложные и / или предвзятые результаты.

RLHF против. Без RLHF

LLM обучаются на большом количестве текстовых данных и способны предсказывать следующее слово в заданной последовательности. Однако этот вывод не всегда может быть выровнен с желаемым человеком выводом. Например (см. Введение в обучение с подкреплением с обратной связью человека (surgehq.ai), если вы попросите модель (GPT-3), не относящуюся к RLHF, создать историю о Гарри Поттере. использовать ИИ для борьбы с Волдемортом» ответ будет примерно таким:

Выходные данные будут различаться в зависимости от приглашения пользователя. Однако, как обсуждалось ранее, выходные данные в большинстве случаев не соответствуют человеческим ожиданиям. Именно здесь вступает в действие «Цикл обучения человека» для создания модели вознаграждения для RLHF. Я задал тот же вопрос модели RLHF (ChatGPT), которая использует технику контролируемого машинного обучения вместе с RLHF.

Читая ответы, мы можем легко отличить модели RLHF от моделей без RLHF. Модель вознаграждения, обученная обратной связи с человеком, помогает ИИ RLHF давать более желаемый результат.

Следующая диаграмма представляет собой высокоуровневый процесс обучения LLM с использованием Prompt Engineering, и он становится основным LLM для обучения модели RLHF с обратной связью с человеком. Кроме того, он использует новую модель вознаграждения для прогнозирования следующего лучшего текста.

Ограничения масштабирования:

RLHF определенно является следующей лучшей мыслью в области ИИ. Он имеет большой потенциал. Он может предсказывать больше текста с большей желательностью для человека, чем модели без RLHF. На самом деле, OpenAI обнаружил, что модели RLHF намного эффективнее: их модель RLHF с 1,3 Б параметрами превзошла модель без RLHF с параметрами 175 Б, несмотря на то, что в ней было более чем в 100 раз меньше параметров!

Однако RLHF полагается на то, что люди могут оценивать результаты моделей. Интересно посмотреть, насколько легко или сложно станет в будущем обучать большие петабайты данных.

Использование:

RLHF продемонстрировал успех с моделями OpenAI ChatGPT и InstructGPT, немногими другими ИИ, использующими обучающие модели RLHF, Sparrow от DeepMind, Claude от Anthropic и т. д.

Дополнительная литература:

Введение в обучение с подкреплением с обратной связью от человека (surgehq.ai)

Как на самом деле работает ChatGPT (assemblyai.com)

Что такое обучение с подкреплением на основе обратной связи с человеком (RLHF)? — TechTalks (bdtechtalks.com)