Объяснение документов 49: Шиншилла

В этой статье исследованы оптимальный размер модели и количество токенов для обучения LLM-трансформера в рамках заданного вычислительного бюджета и обнаружено, что текущие LLM недостаточно обучены из-за упора на масштабирование моделей при сохранении постоянного объема обучающих данных.

Обучая более 400 языковых моделей в диапазоне от 70 миллионов до более 16 миллиардов параметров на 5-500 миллиардах токенов, мы обнаружили, что для оптимального для вычислений обучения размер модели и количество обучающих токенов должны масштабироваться одинаково: для каждого удвоения модели размер, количество обучающих жетонов также должно быть удвоено.

Авторы проверяют эту гипотезу, обучая прогнозируемую оптимальную вычислительную модель Chinchilla, которая использует тот же бюджет вычислений, что и Gopher, но с параметрами 70B и в 4 раза больше данных. Chinchilla равномерно и значительно превосходит Gopher (280B), GPT-3 (175B), Jurassic-1 (178B) и Megatron-Turing NLG (530B) в большом количестве последующих задач оценки.

Это также означает, что Chinchilla использует значительно меньше вычислений для точной настройки и логического вывода, что значительно упрощает дальнейшее использование. Примечательно, что Chinchilla достигает современной средней точности 67,5% в тесте MMLU, что на 7% больше, чем у Gopher.

Оценка оптимального параметра/тренировочных токенов

В документе представлены три разных подхода к ответу на вопрос, лежащий в основе исследования: при фиксированном бюджете FLOP, как следует искать компромисс между размером модели и количеством обучающих токенов?

Во всех трех случаях они начинают с обучения ряда моделей, различающихся как размером модели, так и количеством обучающих токенов, и используют полученные обучающие кривые, чтобы подобрать эмпирическую оценку того, как они должны масштабироваться. Он предполагает степенную зависимость между вычислением и размером модели, хотя в будущих работах может потребоваться включить потенциальную кривизну в эту зависимость для моделей больших размеров.

В первом подходе они изменяют количество шагов обучения для фиксированного семейства моделей (в диапазоне от 70 миллионов до более чем 10 миллиардов параметров), обучая каждую модель 4 разным количествам обучающих последовательностей. Из этих прогонов они могут напрямую получить оценку минимальной потери, достигнутой для заданного количества тренировочных FLOP.

Во втором подходе они изменяют размер модели для фиксированного набора из 9 различных подсчетов тренировочных FLOP (в диапазоне от 6 × 10¹⁸ до 3 × 10²¹ FLOP) и учитывают окончательную тренировочную потерю для каждой точки. Это позволяет им напрямую ответить на вопрос: каково оптимальное количество параметров для заданного бюджета FLOP?

Наконец, они моделируют все окончательные потери от экспериментов в подходах 1 и 2 как параметрическую функцию количества параметров модели и количества увиденных токенов.

Авторы обнаружили, что эти три подхода, несмотря на использование разных методологий подбора и разных обученных моделей, дают сопоставимые прогнозы для оптимального масштабирования параметров и токенов с FLOP.

Модель

Авторы обучают Chinchilla на MassiveText (тот же набор данных, что и у Gopher), но используют немного другое распределение подмножества, чтобы учесть увеличенное количество обучающих токенов.

Они используют AdamW для Chinchilla, а не Adam, поскольку это улучшает потери языкового моделирования и производительность последующих задач после тонкой настройки.

Chinchilla обучается с помощью слегка модифицированного токенизатора SentencePiece, который не применяет нормализацию NFKC. Словарь очень похож — 94,15% токенов такие же, как те, что используются для обучения Gopher. Результаты показывают, что это особенно помогает, например, в представлении математики и химии.

В то время как прямой и обратный проходы вычисляются в bfloat16, мы сохраняем копию float32 весов в распределенном состоянии оптимизатора.