Когда дело доходит до понимания внутренней работы ChatGPT, мы можем разбить процесс на три основные части: сбор демонстрационных данных, сбор сравнительных данных и оптимизация политики с использованием обучения с подкреплением. В этой статье мы углубимся в каждую из этих частей, чтобы дать интуитивно понятное объяснение того, как работает ChatGPT.

Часть 1: Сбор демонстрационных данных и обучение контролируемой политике

Первая часть процесса заключается в сборе примеров правильного поведения. Проще говоря, это как учиться у учителя. Нам нужно собрать данные, которые научат ChatGPT генерировать соответствующие ответы на различные подсказки. Эта часть имеет решающее значение, поскольку она формирует основу, на которой будет строиться остальная часть обучения модели.

Шаг 1. Подсказка выбирается из нашего набора данных.

Путешествие начинается с выбора подсказки из набора данных, содержащего обширную коллекцию текстовых фрагментов. Эти подсказки могут поступать из различных источников, таких как книги, статьи или даже вводимые пользователем данные. Цель состоит в том, чтобы подвергнуть модель разнообразным языковым шаблонам и контекстам, чтобы она могла научиться правильно реагировать на различные типы входных данных.

В качестве примера предположим, что у нас есть набор данных с такими подсказками, как «Какая столица Франции?» или «Как работает фотосинтез?» Задавая модели различные вопросы, она учится распознавать разные темы и соответственно генерировать ответы.

Шаг 2. Маркировщик демонстрирует желаемые результаты

Как только подсказка выбрана, в игру вступает человек. Эти ярлыки хорошо разбираются в нюансах языка и разговора, и их задача состоит в том, чтобы выработать подходящий ответ на выбранную подсказку. Этот процесс генерирует пары подсказок и ответов, которые служат примерами для обучения модели.

Рассмотрим наш предыдущий пример со столицей Франции. Наклейка может дать ответ: «Столица Франции — Париж». Делая это для многочисленных подсказок, маркировщики создают набор данных, который обучает модель тому, какие ответы ожидаются на разные типы вопросов.

Шаг 3. Эти данные используются для точной настройки GPT с контролируемым обучением (SFT).

Теперь, когда у нас есть набор пар «быстрый ответ», пришло время обучить модель. Используемый для этого метод называется управляемой тонкой настройкой (SFT). Модель учится связывать подсказки с соответствующими ответами, подражая примерам, предоставленным людьми, которые навешивают ярлыки. Это похоже на изучение набора карточек, где на одной стороне есть вопрос, а на другой — ответ. Модель учится предсказывать правильный ответ на аналогичный вопрос.

В процессе тонкой настройки модель подвергается воздействию множества пар «подсказка-ответ» и постепенно настраивает свое внутреннее понимание языка, чтобы генерировать соответствующие ответы. Этот процесс продолжается до тех пор, пока модель не достигнет определенного уровня умения генерировать релевантные и связные ответы.

Подводя итог, можно сказать, что первая часть процесса обучения ChatGPT состоит из сбора демонстрационных данных с помощью людей, маркирующих людей, которые дают подходящие ответы на разнообразные запросы. Затем эти данные используются для точной настройки модели с помощью обучения с учителем, что позволяет ей генерировать соответствующие ответы на различные входные данные. Эта основа имеет решающее значение для успеха последующих частей процесса, который еще больше улучшит понимание модели языка и ее способность давать высококачественные ответы.

Часть 2. Сбор данных для сравнения и обучение модели вознаграждения

Вторая часть процесса фокусируется на уточнении понимания модели того, что дает хороший ответ. Это все равно что научиться различать хорошие и плохие ответы, сравнивая их и понимая качества, которые делают один ответ лучше другого.

Шаг 1. Выборка подсказки и нескольких выходных данных модели

На этом этапе мы предоставляем модели приглашение и позволяем ей генерировать несколько ответов. Эти ответы могут различаться по качеству и релевантности, что дает нам ряд вариантов для оценки. Это все равно, что попросить группу студентов ответить на вопрос, а затем изучить разнообразие ответов, которые они дают.

Например, если мы предоставим модели запрос типа «Какой основной ингредиент шоколада?», она может генерировать такие ответы, как «Какао-бобы», «Сахар» или «Молоко». Каждый из этих ответов имеет разный уровень релевантности и точности.

Шаг 2. Маркировщик ранжирует результаты от лучшего к худшему

Затем специалист по маркировке просматривает сгенерированные ответы и ранжирует их от лучших к худшим на основе таких факторов, как релевантность, согласованность и точность. Этот процесс ранжирования помогает модели понять, какие аспекты ответа более желательны, чем другие, направляя ее к более высокой производительности.

Продолжая наш пример с шоколадом, этикетировщик может ранжировать ответы следующим образом:

  1. "Какао бобы"
  2. «Сахар»
  3. "Молоко"

Этот рейтинг учит модель тому, что «Какао-бобы» — лучший ответ, а «Сахар» и «Молоко» — менее точные.

Шаг 3. Эти данные используются для обучения нашей модели вознаграждений (RM)

Когда у нас есть набор ранжированных ответов, мы используем их для обучения модели вознаграждения (RM). RM учится предсказывать качество ответа на основе примеров и ранжирования, предоставленных человеком, назначающим ярлыки. По сути, он количественно определяет качество различных ответов, позволяя нам более эффективно сравнивать и оценивать их.

Роль RM сродни системе подсчета очков в игре или учителю, оценивающему работу ученика. Каждому ответу присваивается числовое значение, указывающее, насколько хорошо этот ответ соответствует желаемым качествам хорошего ответа.

Обучая RM на различных ранжированных ответах, он становится способным оценивать качество новых ответов, генерируемых моделью. Эта способность количественно оценивать качество ответа является важным компонентом в заключительной части процесса обучения ChatGPT, где обучение с подкреплением используется для дальнейшего повышения производительности модели.

Таким образом, вторая часть процесса обучения ChatGPT включает в себя создание нескольких ответов на заданное приглашение, ранжирование этих ответов в зависимости от их качества и использование этих ранжированных данных для обучения модели вознаграждения. Этот процесс помогает модели понять характеристики, которые делают ответ лучше или хуже, что позволяет ей генерировать ответы более высокого качества с течением времени.

Часть 3. Оптимизация политики по отношению к модели вознаграждений с использованием алгоритма обучения с подкреплением PPO

Третья и последняя часть процесса заключается в использовании обучения с подкреплением для тонкой настройки способности модели генерировать высококачественные ответы. Это похоже на то, как студент практикует и совершенствует свои навыки путем проб и ошибок, чтобы со временем улучшить свои результаты. В этом случае мы будем использовать алгоритм оптимизации проксимальной политики (PPO), чтобы направлять этот процесс обучения.

Шаг 1. Новое приглашение выбирается из набора данных

Мы начинаем с выбора новой подсказки из набора данных, аналогично первому шагу в части 1. Например, мы можем выбрать подсказку, связанную с доктором Эрнесто Ли и колледжем Майами-Дейд: «Какова роль доктора Эрнесто Ли в Майами-Дейд? Колледж?

Шаг 2. Модель PPO инициализируется из контролируемой политики

Модель проксимальной оптимизации политик (PPO) инициализируется с использованием контролируемой политики, которую мы создали в части 1. Теперь эта модель будет доработана с помощью обучения с подкреплением, что улучшит ее способность генерировать высококачественные ответы.

Шаг 3. Политика создает выходные данные

Используя модель PPO, мы генерируем ответ на новое приглашение. Например, модель может выдать следующий ответ: «Dr. Эрнесто Ли — профессор колледжа Майами Дейд.

Шаг 4. Модель вознаграждения рассчитывает вознаграждение за результат

Модель вознаграждения (RM), которую мы обучали в части 2, вычисляет оценку для сгенерированного ответа. Эта оценка показывает, насколько хорошо ответ соответствует желаемым качествам хорошего ответа, таким как релевантность, согласованность и точность.

В нашем примере, если ответ о роли доктора Эрнесто Ли в колледже Майами-Дейд точен и хорошо структурирован, RM присвоит ему высокий балл.

Шаг 5. Вознаграждение используется для обновления политики с помощью PPO

Наконец, мы используем вознаграждение, рассчитанное RM, для обновления политики PPO. Настраивая модель на основе вознаграждений, она учится со временем генерировать лучшие ответы. Этот процесс повторяется несколько раз, постепенно улучшая понимание модели языка и ее способность давать высококачественные ответы.

Например, если модель изначально дает менее точный ответ о роли доктора Эрнесто Ли в колледже Майами Дейд, она получит меньшее вознаграждение. Затем модель обновляет свою политику, чтобы улучшить свои будущие ответы, в конечном итоге научившись генерировать более точные и актуальные ответы.

В заключение, эффективность ChatGPT как диалогового ИИ достигается за счет комбинации демонстрационных данных, данных сравнения и обучения с подкреплением с использованием алгоритма PPO. Разбив процесс на эти три части, мы можем получить интуитивное представление о том, как работает ChatGPT, и оценить сложности, стоящие за его, казалось бы, не требующими усилий разговорными возможностями. Искусство и наука ChatGPT основаны на постоянном обучении, совершенствовании и адаптации, что делает его мощным и динамичным инструментом в мире искусственного интеллекта.