Преодоление чувствительности к заказу на несколько выстрелов

Абстрактный

Этот исследовательский документ показывает, что большие языковые модели, такие как GPT-3, могут работать лучше по сравнению с полностью контролируемыми, точно настроенными, большими, предварительно обученными языковыми моделями для этой конкретной задачи, даже с несколькими обучающими выборками. Порядок, в котором предоставляются образцы, очень важен, и некоторые сочетания образцов работают лучше, чем другие. Это явление характерно для моделей разных размеров и не связано
с конкретными образцами. Исследователи используют генеративный подход для определения эффективных подсказок, что привело к относительному улучшению13% моделей семейства GPT в одиннадцати установленных задачах классификации текста.

Источник: https://arxiv.org/pdf/2104.08786.pdf

Оглавление

  1. Введение
  2. Чувствительность к заказу и быстрый дизайн
  3. Методология
  4. Эксперимент
  5. Заключение

Введение

Большие предварительно обученные языковые модели (такие как семейство GPT) продемонстрировали замечательную производительность, когда они были обусловлены соответствующим текстовым контекстом. При использовании контекста, состоящего из очень небольшого количества обучающих примеров, они дают результаты классификации текста, которые могут соответствовать результатам полностью контролируемых моделей. Этот тип краткой настройки обычно называется «Обучение в контексте».

Основным компонентом контекстного обучения является текстовая подсказка, которая служит контекстом. Для составления подсказки требуется:
1. Линеаризация текста с использованием шаблона; и
2. Конкатенация обучающей выборки

Некоторые перестановки по производительности сопоставимы с обучением с учителем для классификации настроений, в то время как другие работают почти случайным образом (около 50%). Эта чувствительность к порядку универсальна для всех моделей. Хотя увеличение размера модели несколько решает эту проблему, проблема по-прежнему присутствует для некоторых задач классификации текста для моделей с миллиардами параметров.

Мы проанализировали различные порядки образцов и не нашли универсального подхода к выбору оптимального порядка образцов для разных размеров моделей и задач. В полностью контролируемых условиях, когда доступен помеченный набор для разработки, наилучший порядок образцов может быть выбран путем экспериментирования с различными заказами и оценки их эффективности в наборе для разработки. Тем не менее, в условиях поэтапного обучения, когда доступно ограниченное количество размеченных данных, авторы предлагают использовать генеративную природу языковых моделей для создания неразмеченного искусственного набора для разработки, называемого «зондирующим набором». Затем качество различных образцов образцов измеряется с помощью метрик, основанных на энтропии, которые основаны на прогнозируемой статистике распределения меток.

Чувствительность к порядку и дизайн подсказок

Увеличение размера модели не гарантирует низкую дисперсию:

Меньшие модели в целом демонстрируют высокую дисперсию, и даже на более крупных моделях некоторые перестановки случайным образом показывают точность, аналогичную меньшей модели.

Добавление обучающих выборок существенно не снижает дисперсию.

Если мы увеличим количество обучающих выборок, а затем выберем подмножество не более чем из 24 различных порядков. (для этого эксперимента использовались модели семейства GPT2)

Подсказки производительности или порядок меток нельзя передавать между моделями

Конкретная перестановка, хорошо работающая для одной модели, не означает, что она даст хорошие результаты для другой модели. Чтобы проверить эту гипотезу, мы использовали все возможные перестановки порядка четырех выборок в качестве подсказок — 24. Затем они выполнили прогнозирование, обусловленное каждой из этих подсказок
для разных моделей, и вычислили попарный коэффициент ранговой корреляции Спирмена между оценками.

Дегенеративное поведение плохих подсказок:

Они выполнили анализ ошибок в эффективных и неэффективных подсказках и обнаружили, что большинство неудачных подсказок страдают от сильно несбалансированного прогнозируемого распределения меток. Интуитивно понятный способ решения этой проблемы — калибровка выходного распределения. Однако, хотя калибровка приводит к гораздо более высокой производительности, дисперсия остается высокой.

Методология

Выборка из языковой модели для создания тестового набора

Учитывая набор обучающих выборок
S = {(x¹, y¹ )}
Затем мы определяем преобразование T, отображая каждую выборку в пространство естественного языка так, что
t¹ = T (x¹, y¹)
следовательно, это текстовая последовательность i-й обучающей выборки с использованием шаблона, определенного T, который линеаризует каждый элемент в наборе в естественном языковом пространстве определяется как
S′ = {t¹}
Затем мы определяем целую группу функций перестановки из n обучающих выборок,
F = {fm}, m = 1, · · · , n!
Каждая функция fm принимает S′ в качестве входных данных и выводит cm: конкатенацию уникальной перестановки. Для каждого подсказки-кандидата cm мы затем делаем выборку из языковой модели, чтобы получить пробную последовательность
gm ∼ P(·|cm; θ)

, где θ обозначает параметры предварительно обученная языковая модель. Мы запускаем этот процесс выборки для всех возможных перестановок быстрого порядка и извлекаем из них пробные выборки (T −1 (g)) (скажем, T-обратная). Затем соберите извлеченные образцы вместе, чтобы сформировать набор зондирования
D = T−1(g¹)⊕…⊕T −1(gn!)
Хотя метка для каждого предложения, мы отбрасываем их из зондирующего множества.

Зондирование метрик

Глобальная энтропия (GlobalE)
Мотивация GlobalE заключается в том, чтобы идентифицировать подсказки определенного порядка выборки, что позволяет избежать проблемы сильно несбалансированных прогнозов (как мы ранее установили как критическую проблему для неэффективных подсказки). Мы вычисляем прогнозируемую метку ˆyi для точки данных (x′i, y′i) в контексте cm следующим образом.

Локальная энтропия (LocalE)
Идея использования LocalE заключается в том, что если модель слишком уверена в отношении всех входных данных, то вполне вероятно, что модель должна вести себя так, как нужно. По крайней мере, он плохо откалиброван, что указывает на плохую способность правильно различать классы. Подобно вычислению GlobalE, мы вычисляем вероятность предсказания точки данных (x′i, y′i) по целевым меткам v ∈ V в контексте cm следующим образом:

Эксперимент

Настраивать

Мы используем четыре различных размера GPT-2 (с параметрами 0,1B, 0,3B, 0,8B и 1,5B
) и два размера GPT-3 (с параметрами 2,7B и 175B). Из-за ограниченного размера окна контекста (до 1024 фрагментов слов для моделей серии GPT-2) мы используем настройку из 4 кадров для всех наборов данных, кроме AGNews и DBPedia. Наши эксперименты основаны на открытых контрольных точках моделей GPT-2 и доступе к OpenAI GPT-3 API5. Для создания тестового набора мы ограничиваем максимальную длину генерации до 128. Мы также используем выборку с tтемпературой T, равной 2, и блокируем повторения n-грамм, чтобы поощрять разные поколения. Мы используем 24 различных перестановки для каждого набора случайно выбранных обучающих выборок и используем пять разных наборов (за исключением GPT-3 с параметрами 175B, где мы делаем только два набора с 12 различными перестановками из-за высокой денежной стоимости). стоимость) для каждого эксперимента, что дает в общей сложности 120 запусков.

Мы сообщаем среднее значение и стандартное отклонение соответствующей оценочной метрики по пяти различным наборам.Для эффективного выбора подсказок мы ранжируем подсказки-кандидаты, используя метрики зондирования LocalE и GlobalE по автоматически сгенерированному набору зондирования. Затем мы выбираем лучшие k выборок, ранжированные по самым высоким значениям энтропии, где k = 4 в наших экспериментах, из 24 доступных перестановок в качестве эффективных подсказок. Наконец, мы используем эти подсказки производительности для оценки производительности различных наборов данных и демонстрации более высокой производительности и снижения дисперсии. Мы также предоставляем результаты для базового уровня большинства, который всегда предсказывает метку большинства в наборе данных как более низкую границу производительности. Мы также предоставляем оракул, чтобы показать верхнюю границу производительности, выбрав четыре наиболее эффективных порядка на основе быстрой производительности в наборе проверки. Мы используем одиннадцать наборов данных классификации текстов, начиная от классификации настроений и заканчивая текстовыми следствиями для оценки.

Полученные результаты

  1. Энтропийное зондирование эффективно для эффективного выбора подсказок независимо от размера модели: GlobalE достигает в среднем 13% относительного улучшения в одиннадцати различных задачах классификации предложений по сравнению с подсказками, которые не используют зондирование. . LocalE дает результаты, немного уступающие GlobalE, со средним относительным улучшением на 9,6% по сравнению с базовой моделью. Выбранные нами эффективные подсказки демонстрируют значительно более низкую дисперсию, чем все подсказки-кандидаты.
  2. Надежное ранжирование с использованием зондирования на основе энтропии: средняя производительность при изменении K для выбора верхней подсказки K. K = 24 соответствует использованию всех выбранных немедленных заказов, что эквивалентно производительности базовой модели. Мы можем заметить, что наклон кривых отрицателен для всех наборов данных, что позволяет предположить, что наш метод может эффективно ранжировать эффективные подсказки. Хотя K = 1 может обеспечить хорошую производительность в большинстве случаев, в наших экспериментах мы используем K = 4, так как предварительные эксперименты показали, что это дает стабильную производительность для наборов данных.
  3. Энтропийное зондирование эффективно для разных шаблонов. Мы оцениваем энтропийное зондирование для четырех разных шаблонов набора данных SST-2. Экспериментальные результаты показывают, что зондирование на основе энтропии применимо для разных шаблонов. Эти результаты показывают, что зондирование на основе энтропии не чувствительно к конкретным шаблонам, поскольку оно последовательно улучшает все случаи.
  4. Выбор эффективной перестановки — безопасный вариант для контекстного обучения. Наш быстрый процесс выбора может показать значительные улучшения — до 30 % относительного улучшения для моделей с высокой дисперсией подсказок. Кроме того, для задач с низкой начальной дисперсией быстродействия наш метод не оказывает отрицательного влияния на производительность. Наш оперативный отбор обеспечивает незначительное улучшение при худшем и, в среднем, относительное улучшение на 13% в большинстве случаев.
  5. Задачи с парами предложений остаются сложными для моделей меньшего размера даже при эффективном выборе перестановок: производительность моделей GPT-2 на наборах данных CB и RTE аналогична случайному базовому уровню, но
    метод для определения хороших подсказок все еще может обеспечить небольшой прирост производительности. Для этих размеров моделей и задач может потребоваться лучшая подсказка. Однако при больших размерах моделей оперативный
    выбор может значительно повысить производительность. Этот метод широко применим для всех размеров моделей и задач, если они уже обладают некоторой существующей способностью классификации, которую можно улучшить за счет быстрого проектирования.
  6. Энтропийное зондирование превосходит использование подмножеств обучающих данных для настройки.Альтернативный подход к выбору наиболее эффективных подсказок с использованием проверочного набора последовательно превосходит базовый уровень, но методы энтропийного зондирования по-прежнему обеспечивают лучшие результаты. производительность для моделей всех размеров по сравнению с этим подходом. Использование подмножеств обучающих данных для настройки менее эффективно, чем зондирование на основе энтропии.

Заключение

Мы показали, что подсказки с несколькими выстрелами страдают от чувствительности к порядку, поскольку для одной и той же подсказки порядок, в котором предоставляются образцы, может иметь значение между современной и случайной производительностью. Наш анализ проблемы показал, что она присутствует в задачах, размерах моделей, шаблонах подсказок, примерах и нескольких обучающих примерах. Чтобы решить эту проблему, мы представили новый метод зондирования, который использует генеративную природу языковых моделей для создания искусственного набора для разработки. Мы определили эффективные перестановки, используя энтропийную статистику по этому набору, что привело к улучшению в среднем на 13% в одиннадцати задачах классификации текста.