Эволюция GPT: от GPT к GPT-2 и к GPT-3

Введение

В этом сообщении блога я буду обсуждать модели авторегрессии. Модели, которые я буду обсуждать, были разработаны OpenAI. Сначала я расскажу об основах моделей авторегрессии, которые являются общими для всех моделей GPT, а затем перейду к усовершенствованиям каждой последующей модели. В предыдущем сообщении в блоге Внимание — это все, что вам нужно: основная идея трансформера я обсуждал механизм внутреннего внимания и архитектуру трансформера. В этом блоге я буду опираться на предыдущую информацию. Так что, если вы не читали предыдущий пост, посмотрите его. Архитектура трансформатора использует 6 энкодеров и 6 декодеров, как указано в оригинальной статье. Все модели GPT имеют архитектуру, состоящую только из декодеров. Несколько декодеров располагаются друг над другом с линейным уровнем в конце. Прежде всего, позвольте мне объяснить, что такое авторегрессионные модели:

Авторегрессионные модели

Авторегрессионные модели — это тип статистической модели или модели машинного обучения, которая предсказывает следующее значение в последовательности на основе предыдущих значений в этой последовательности. Эти модели предполагают, что будущие значения в последовательности зависят от прошлых значений, и используют эту зависимость для прогнозирования. В контексте обработки естественного языка авторегрессионные модели часто применяются для генерации текста или прогнозирования на основе предыдущих слов в предложении. Эти модели изучают статистические закономерности и зависимости в обучающих данных, а затем используют эти знания для создания связного и контекстуально релевантного текста. Авторегрессионные языковые модели, такие как GPT (Generative Pre-trained Transformer), GPT-2 и GPT-3, привлекли значительное внимание благодаря своей способности генерировать высококачественный текст и выполнять множество задач, связанных с языком.

Полуконтролируемое обучение

Во всех авторегрессионных моделях OpenAI используется подход полуконтролируемого обучения. Этот подход представляет собой смесь контролируемого и неконтролируемого обучения. Поскольку стоимость создания помеченных наборов данных для языковых задач довольно высока, поскольку для этого требуются профессионалы. OpenAI предложил подход неконтролируемой предварительной подготовки и контролируемой тонкой настройки. Процедура их обучения состоит из двух этапов. Первый этап — это изучение высокопроизводительной языковой модели на большом корпусе текстов. Затем следует этап тонкой настройки, на котором модель адаптируется к задаче различения с помеченными данными.

Неконтролируемое предварительное обучение:

При неконтролируемом предварительном обучении у нас есть неразмеченный корпус текста, и наша цель состоит в том, чтобы максимизировать логарифмическую вероятность следующего слова при заданных предыдущих словах. Здесь мы используем понятие условной вероятности. Здесь выполняется однонаправленная предобучение.

Мы берем k в качестве окна контекста. Проще говоря, мы можем оглянуться назад на k токенов, прогнозируя (k+1)th токен. Во время предобучения используется многослойный декодер Transformer. Многоголовая операция самоконтроля применяется к входному токену, за которым следует позиционная сеть прямой связи. Результатом является распределение по целевым токенам.

Контролируемая тонкая настройка:

При контролируемой точной настройке у нас есть набор данных, помеченный 'y' как метки и'x'каквходы. Входные данные проходят через предварительно обученную модель, а выходные данные из конечного блока преобразователя передаются в добавленный линейный выходной слой с параметрами Wy для прогнозирования у. Это дает нам следующую цель:

Было обнаружено, что использование цели предварительной подготовки в качестве вспомогательной цели при тонкой настройке улучшает обобщение и ускоряет сходимость. Таким образом, L1был включен в конечную цель с весом.

Теперь я объясню модели, разработанные OpenAI на основе полуконтролируемого обучения.

Генеративный предварительно обученный преобразователь (GPT)

Модель GPT состоит из 12-слойного преобразователя только декодера с маскированными головками собственного внимания (768 пространственных состояний и 12 головок внимания). Для позиционно-упреждающих сетей использовались 3072-мерные внутренние состояния. Были использованы оптимизатор Adam, кодирование пары байтов и оптимизатор Gelu. Предварительное обучение модели проводилось на большом наборе данных BookCorpus (7000 книг). Он имеет в общей сложности 110 миллионов параметров.

В левой части рисунка выше показана архитектура модели GPT. Мы видим, что есть две цели обучения. С правой стороны у нас есть различные преобразования, применяемые к входной последовательности для различных задач тонкой настройки.

ГПТ-2

Модель GPT-2 имеет в общей сложности 1,5 миллиарда параметров. Это однонаправленная модель, т. е. обученная предсказывать следующее слово в предложении. Основные отличия GPT-2 по сравнению с GPT-1 заключаются в том, что GPT-2 намного крупнее модели (чем больше, тем лучше). Он обучается на гораздо большем немаркированном наборе данных (чем больше, тем лучше). В GPT-2 тонкая настройка не производится. Они ввели концепцию нулевого перехода. Нулевой перенос относится к сценарию, в котором предварительно обученная модель напрямую применяется к новой задаче или домену без какого-либо дополнительного обучения на данных, специфичных для задачи. Модель использует свои знания, полученные на этапе предварительного обучения, чтобы делать прогнозы или генерировать результаты для новой задачи. Ключевой характеристикой переноса с нулевым выстрелом является то, что модель не видела ни одного примера из целевой задачи во время обучения или тонкой настройки. Вместо этого он полагается на свое общее понимание языка или закономерности, извлеченные из данных перед обучением.

Архитектура GPT-2 почти аналогична GPT-1. Он основан на оригинальном декодере Transformer. Есть только небольшая перестановка нормы слоя и остаточных слоев. Размер словарного запаса был увеличен с 30 000 до 50 257 слов. Размер контекста увеличен с 512 до 1024 токенов. Модель была обучена на WebText (миллионы страниц) и 40 ГБ постов Reddit. Больше внимания было уделено качеству набора данных.

ГПТ-3

Модель GPT-3 имеет в общей сложности 175 миллиардов параметров. Это также однонаправленная модель. Основное отличие GPT-3 по сравнению с GPT-2 заключается в том, что GPT-3 представляет собой гораздо более крупную модель (чем больше, тем лучше). Он обучается на гораздо большем немаркированном наборе данных (чем больше, тем лучше). Они ввели понятие малокадровой передачи. Передача с несколькими шагами аналогична передаче с одним выстрелом, но включает обучение модели с несколькими дополнительными примерами, а не только с одним. Модель точно настраивается на небольшом помеченном наборе данных, характерном для целевой задачи или предметной области, обычно состоящем из нескольких примеров для каждого класса или категории. Это дополнительное обучение помогает модели дополнительно адаптировать свои представления и параметры к требованиям задачи. Архитектура GPT-3 почти аналогична GPT-2. Они использовали шаблон Attention от Sparse Transformer. Размер контекста увеличен с 1024 до 2048 токенов. Были использованы более крупные вложения слов (12,8 тыс. вместо 1,6 тыс.).

При выполнении неконтролируемого предварительного обучения (внешний цикл) было замечено, что модель неявно выполняла контекстное обучение на основе богатой информации в тексте. Модель развивает широкий набор навыков и задач распознавания образов. Затем он использует эти способности во время вывода, чтобы быстро адаптироваться или распознать желаемую задачу. Контекстное обучение — это термин, используемый для описания внутреннего цикла этого процесса, который происходит в прямом проходе каждой последовательности. Также было замечено, что более крупные модели все более эффективно используют контекстную информацию.

Заключительные замечания

В заключение следует отметить, что авторегрессионные модели, такие как GPT, GPT-2 и GPT-3, произвели революцию в области обработки естественного языка и продемонстрировали возможности крупномасштабных языковых моделей. Эти модели продемонстрировали замечательные возможности в создании связного и контекстуально релевантного текста, расширяя границы возможного в задачах генерации языка. Однако крайне важно помнить об этических соображениях и потенциальных предубеждениях, связанных с авторегрессионными моделями. В следующем сообщении блога я подробно расскажу о других больших языковых моделях, таких как BERT, BART и T-5.

Спасибо, что прочитали!

Подпишитесь на меня в LinkedIn!

Ссылки

  1. ГПТ бумага
  2. Бумага ГПТ-2
  3. Бумага ГПТ-3
  4. Внимание — это все, что вам нужно
  5. Иллюстрированный трансформер