Насколько хорошо люди могут распознавать машинный текст? — ACL-IJCNLP 2021, Выдающаяся статья

Эта статья является моей заметкой о прочтении статьи Все, что 'человеческое', не золото — оценка человеческой оценки сгенерированного текста .Я попытаюсь обобщить ее в соответствии с моим личным пониманием. Пожалуйста, не стесняйтесь открывать со мной любую дискуссию, если у вас есть какие-либо вопросы или мнения :)

Постановка задачи

Тексты человеческого качества обычно служат верхней границей задач генерации естественного языка (NLG). Поскольку у нас нет автоматизированного метода для анализа того, что представляет собой результат человеческого качества, мы часто должны полагаться на оценку моделей человеком. Оценщикам часто даются целостные инструкции, например, общее качество, человеческое сходство.

Однако авторы обнаружили, что современные современные модели NLG (GPT3, GPT2) могут быть неотличимы от написанного человеком текста в областях историй, новостей и рецептов.

В результате авторы определили два вопроса исследования:

  • Насколько хорошо неподготовленные оценщики могут идентифицировать текст, сгенерированный машиной?
  • Можем ли мы обучить оценщиков лучшему распознаванию машинно-генерируемого текста?

Чтобы узнать, «может ли текущая оценка человеком рассказать о качестве моделей» и «можно ли повысить точность оценщиков путем обучения».

Вопрос 1. Насколько хорошо неподготовленные оценщики могут идентифицировать текст, сгенерированный машиной?

Обзор задач

Эта задача основана на тесте Тьюринга, который используется для сравнения качества текста, сгенерированного машиной, с текстом, созданным человеком. Оценщиков просят оценить человеческое сходство текста с минимальными инструкциями.

Авторы предоставили оценщикам 5 отрывков текста, некоторые из которых были написаны людьми, а другие созданы с помощью модели. Они попросили их оценить каждый текст как:

  1. Определенно написано человеком
  2. Возможно, написанное человеком
  3. Возможно, созданный машиной
  4. Определенно сгенерировано машиной

После оценки текстов оценщики должны обосновать/объяснить свой выбор.

Данные

Авторы выбрали три разных домена: истории, новостные статьи и рецепты. Они учитывают только тексты от 100 слов и более, а по достижении 100 слов все тексты обрезаются в конце предложения.

  • Истории

Тексты, написанные человеком, взяты из набора данных Reddit WritingPrompts.

Для машинно-генерируемого текста они дали три прайм-текста и фразу Однажды давным-давно.

  • Новости

Тексты, созданные человеком, взяты из Newspaper3k. Отфильтровывать статьи, которые не были местными новостями или ссылались на пандемию коронавируса.

Для текста, сгенерированного машиной, они обусловили каждый сгенерированный текст заголовком и первым предложением статей-подсказок, а также тремя исходными текстами.

  • Рецепты

Тексты, созданные человеком, взяты из RecipeNLG.

Для автоматизированного текста заголовки и списки ингредиентов представляют собой подсказки, добавленные в конец начальных текстов.

Priming texts:
To generated text, the authors used the "three-shot" setting, conditioning the text on three additional samples of in-domain, human-authored text. These sample texts are referred as priming texts.
For more information, you can refer to priming text provided by the authors on GitHub.

Для каждого домена они собрали по 50 по каждому из следующих параметров:

  • Люди
  • GPT2 XL
  • GPT3 (параметр 175B)

Настройка эксперимента

Они использовали Amazon Mechanical Turk (AMT) для сбора неспециализированных оценщиков. На каждый из 6 вариантов задания (3 домена * 2 модели) приходится 130 оценщиков, каждый участник оценивал по 5 текстов.

Всего 780 (130*6) участников и 3900(780*5) оценок.

Полученные результаты

В этой таблице мы можем наблюдать несколько моментов.

  1. Общая точность для GPT3 составляет 50%, что соответствует случайному совпадению.
  2. Точность текстовисторий упала больше всего с GPT2 до GPT3.
  3. Низкий показатель альфа Криппендорфа и уверенность предполагают, что оценщики не так уверены в своем выборе и могут быть сбиты с толку моделями.
  4. В экспериментах GPT3 около 2/3 догадок приходится на рукописные тексты.
Krippendorff’s alpha:
A measure of annotator agreement that corrects for the probabilty of random agreement.
Confident: 
The percent of Definitely human-written or Definitely machine-generated responses.

Анализ

Чтобы лучше понять, на что обращали внимание неподготовленные оценщики в тексте для принятия своих решений, авторы аннотировали 150 случайных ответов. Они делят метки текстовых аннотаций на три категории: форма, содержание и машинные возможности.

  • Форма: формат, стиль, тон
  • Содержание: значение текста
  • Машинные возможности:в некоторых комментариях явно упоминается, какие типы языковых машин (не)способны генерировать.

Они обнаружили, что оценщиков больше волнует форма (47%), чем содержание (25%). Оценщики сосредоточились на орфографии, грамматике и пунктуации текстов, а также стиле или тоне текстов.

Однако они не помогают идентифицировать текст, созданный текущими моделями. В частности, было показано, что GPT3 генерирует беглый текст и легко адаптируется к доменам нового поколения.

Вопрос 2. Можем ли мы обучить оценщиков более эффективному распознаванию машинно-генерируемого текста?

Основываясь на своем предыдущем эксперименте, авторы обнаружили, что люди могут испытывать трудности с идентификацией сгенерированных машиной текстов. Далее они исследовали, существуют ли простые способы улучшить способность оценщиков определять атрибуты текста, сгенерированного GPT3.

Методы обучения

Они рассмотрели 3 тренинга для оценщиков, которые можно добавить к началу задачи по оценке человека. Для проверки эффективности каждого вида обучения эксперименты RQ1 добавляются после обучающих заданий.

  • Обучение на основе инструкций

Этот метод обучения является наиболее предписывающим и самым простым способом обучения. Исследователи должны выбрать параметры, на которых они хотят, чтобы оценщики сосредоточились.

  • Обучение на основе примеров

Обучение примерам состояло из 3 практических раундов выполнения реальной задачи. Тексты собраны таким же образом, как и в эксперименте RQ1, и предоставлены краткие пояснения в качестве подсказки для руководства оценщиком. После того, как оценщик сделал свое предположение, показывается правильный ответ и объяснение. Каждый домен имеет свой собственный набор примеров и пояснений.

  • Обучение на основе сравнения

На тренинге «Сравнение» они сопоставляют примеры отрывков из текстов, созданных человеком, и текстов, сгенерированных машиной, которые начинаются с одной и той же подсказки.

Оценщиков просят выбрать сгенерированный машиной. Затем правильный ответ предоставляется оценщику вместе с пояснениями.

Полученные результаты

Таблица результатов может показать несколько выводов:

  1. Хотя все методы повысили точность по сравнению с точностью без обучения, обучение на основе примеров — единственный, который показал значительное улучшение. Основное отличие заключается в домене истории.
  2. Методы обучения «Примеры и сравнения» дали самые высокие баллы запоминания и F1, а также уменьшили процент догадок, написанных человеком. Это указывает на то, что оценщики были готовы рассматривать более широкий набор текстов для машинной генерации.
  3. Альфа Криппендорфа (согласие оценщиков) по-прежнему остается низким во всех условиях и не коррелирует с точностью.

Авторы снова аннотируют 150 комментариев и делят их на форму, содержание, возможности машины. На этот раз от оценщиков, прошедших самое эффективное обучение на основе примеров.

Они обнаружили, что пропорции формы и возможностей машин сильно падают, а доля содержания удваивается. Результат концентрации на содержательных причинах соответствует текущим возможностям модели NLG.

Заключение

  1. В этом документе показано, что неподготовленные оценщики склонны сосредотачиваться на текстовых функциях. Хотя этому можно помочь с обучением, проблема все еще не решена полностью.
  2. Похоже, что оценщики недооценивают возможности модели, сосредотачиваясь на поверхностных ошибках.
  3. Исследователи должны думать о том, что человеческие оценки действительно отражают эффективность моделей NLG.