Open.ai обновил свой API с GPT-3 до InstructGPT.

InstructGPT создан на основе GPT-3 путем тонкой настройки с учетом отзывов людей с использованием обучения с подкреплением.

Модель InstructGPT

InstructGPT строится в три этапа.

На первом этапе выполняется тонкая настройка предварительно обученного GPT-3 с использованием набора данных 13 КБ. Этот набор данных взят из двух источников:

  • Команда наняла специалистов по маркировке, которых попросили писать и отвечать на подсказки — подумайте о задачах НЛП. Например, специалисту по маркировке было поручено создать инструкцию, а затем несколько пар запросов и ответов для нее.
  • Подсказки конечных пользователей в Open.ai API Playground.

Эти подсказки включали в себя различные задачи НЛП — генерацию текста, вопросы и ответы, подведение итогов и т. д.

Обучение с учителем используется для тонкой настройки предварительно обученного GPT-3. Набор данных включает в себя как входные данные, так и соответствующие выходные данные, помеченные человеком.

Второй шаг и третий шаг основаны на обучении с подкреплением. Давайте сначала рассмотрим второй шаг — модель вознаграждения.

Модель вознаграждения обучается с помощью 50 000 дополнительных подсказок. Генерируются подсказки и несколько выходных данных модели. Выходные данные модели ранжируются человеком от лучшего к худшему. Затем модель вознаграждения обучается предсказывать предпочтительный для человека результат.

Третий шаг — оптимизация политики с использованием модели вознаграждения с набором данных 31 тыс. Данные взяты исключительно из инструмента Playground без каких-либо письменных подсказок этикетировщика. Поэтому он отличается от первых двух шагов.

Генерируется подсказка. Вывод генерируется политикой. Вознаграждение дается за результат на основе модели вознаграждения. Полученное вознаграждение затем используется для оптимизации политики с использованием алгоритма PPO.

Размер модели и стоимость

Было много дискуссий, имеет ли смысл продолжать строить модели с постоянно увеличивающимися моделями. Когда выйдет новая модель GPT-4? Превзойдет ли он 1 триллион параметров?

GPT-3 — это модель со 175 миллиардами параметров. Итак, модель крупная. Тем не менее, модель InstructGPT с 1,3 миллиардами параметров превосходит ее. Это ключевое наблюдение этого исследования. InstructGPT превзошел GPT-3 по части вычислительных ресурсов.

Другими словами, деньги тратятся более эффективно, добавляя ресурсы для тонкой настройки языковых моделей с обратной связью от человека, а не увеличивая размер модели.

Ожидается, что новые исследования будут сосредоточены в первую очередь на обучении с подкреплением на основе отзывов людей.

GPT-3 против InstructGPT

Существует разница между тем, как GPT-3 и InstructGPT генерируют выходные данные. GPT-3 был разработан для предсказания следующего токена. Это важно помнить. Несмотря на то, что GPT-3 умеет предсказывать следующее слово, вывод может быть бесполезным. Подумайте, например, о токсичной речи в приложении для конечного пользователя. Несоответствие относится в НЛП к проблеме выходных данных, не соответствующих намерениям пользователя.

InstructGPT точно настроен в соответствии с человеческими предпочтениями с помощью обучения с подкреплением. Это означает, что вместо того, чтобы просто предсказать следующий токен, он пытается вместо этого ответить выводом, который предпочитает человек. Модель InstructGPT оптимизирована иначе, чем GPT-3. Он вознаграждает человеческие предпочтения. Поэтому лучше справляется с задачами пользователя.

Контрольные показатели и ограничения

InstructGPT генерирует более подходящие результаты по сравнению с GPT-3. Этикетировщики предпочитают его GPT-3. InstructGPT более правдив. Он превосходит набор данных TruthfulQA, предоставляя вдвое больше правдивых ответов.

InstructGPT не является безопасным или идеальным решением. Как и GPT-3, он способен изобретать факты. InstructGPT генерирует на 25 % менее токсичную речь. Если модели дать оперативные указания сделать ее максимально смещенной — она выдает более токсичные результаты, чем GPT-3.

Таким образом, нет никакого улучшения смещения. Модель также не предотвращает неправильное использование — если пользователь запрашивает вредоносный ответ, модель предоставит его. Следует иметь в виду, что модель обучается только английскому языку.

Ссылки:

InstructGPT Ouyang et al. Январь 2022 г., Open.ai.

Последнее обновление: 16.02.2022