Модели, подобные ChatGPT, произвели революцию в работе искусственного интеллекта благодаря своим невероятным возможностям для решения реальных задач, таких как обобщение, кодирование и перевод, достигая уровня производительности человеческих экспертов или даже превосходя их. Несмотря на впечатляющие возможности этих моделей, по-прежнему отсутствует конвейер сквозного обучения с подкреплением с обратной связью человека (RLHF) для обучения модели, подобной ChatGPT.

В новой статье DeepSpeed-Chat: простое, быстрое и доступное обучение RLHF для моделей, подобных ChatGPT, на всех масштабах исследовательская группа Deepspeed Microsoft представляет DeepSpeed-Chat, новую сквозную RLHF. конвейер, который обеспечивает простое в использовании обучение и вывод для моделей, подобных ChatGPT, обеспечивая при этом непревзойденную эффективность и масштабируемость для моделей обучения, которые имеют сотни миллиардов параметров.

Команда резюмирует предложенный DeepSpeed-Chat со следующими тремя возможностями:

  1. Простое в использовании обучение и опыт для моделей, подобных ChatGPT.
  2. Конвейер DeepSpeed-RLHF, который воспроизводит конвейер обучения из документа InstructGPT с особым вниманием к обеспечению полноты и взаимного соответствия.
  3. Система DeepSpeed-RLHF, которая объединяет возможности DeepSpeed ​​для обучения и вывода в единый унифицированный гибридный движок (DeepSpeedHE) для RLHF.

Команда показывает, как легко обучать модели OPT-13B и OPT-66B с помощью системы DeepSpeed-RLHF, а также как использовать API DeepSpeed-chat RLHF для настройки пользовательских конвейеров. В частности, для выполнения всех трех этапов требуется только один сценарий: 1) контролируемая точная настройка (SFT), 2) точная настройка модели вознаграждения и 3) RLHF для создания собственной модели пользователя, подобной ChatGPT. Они также предоставляют гибкие API-интерфейсы, которые позволяют пользователям с помощью общего интерфейса и серверной части легко создавать собственный конвейер обучения RLHF.