И превосходит Google Translate для перевода литературных произведений

Согласно предыдущим исследованиям, модели GPT работают не хуже стандартных систем машинного перевода, например, Google Translate.

Эти исследования в основном были сосредоточены на переводе на уровне предложений: подход по умолчанию, используемый в машинном переводе, который переводит предложения одно за другим без какого-либо контекста.

Перевод абзацев или целых документов представляет собой очень сложную задачу для стандартных систем машинного перевода. Этим системам обычно приходится разделять входные данные или выполнять сложную инженерную работу, чтобы принять и использовать более длинные входные данные.

Тем не менее, интуитивно и следуя рабочему процессу переводчиков-людей, мы можем ожидать, что системы машинного перевода будут работать лучше с контекстом, например, при переводе целых документов или абзацев.

Именно здесь могут проявить себя большие языковые модели, такие как модели GPT. Они могут принимать в качестве входных подсказок значительно больше времени, чем типичные системы машинного перевода.

Но осталось оценить следующее:

  1. Полезно ли использование большего количества контекста для улучшения качества машинного перевода GPT.
  2. Производительность моделей GPT при переводе длинного текста по сравнению со стандартными системами машинного перевода.

Оценка больших языковых моделей для перевода абзацев сопряжена с рядом проблем.

  1. Автоматические показатели, используемые для оценки машинного перевода, не предназначены для оценки на уровне абзаца.
  2. Данные оценки не должны просматриваться во время обучения оцениваемых систем.
  3. Оценку следует проводить для различных языковых пар, чтобы получить точное представление о качестве перевода в большой языковой модели.
  4. Подсказки должны быть разработаны так, чтобы использовать весь абзац, т. е. не только предложения, как это делалось в предыдущей работе.

Все эти проблемы решаются Карпинской и Ийером (2023): Большие языковые модели эффективно используют контекст на уровне документа для художественного перевода, но критические ошибки сохраняются».

В этой статье блога я рассматриваю и комментирую их работу. Мы увидим, как их оценка GPT-3.5 показывает, что «LLM производят более качественные переводы, когда им предоставляется контекст на уровне абзаца» и могут добиться лучшего качества перевода, чем современные нейронные системы машинного перевода. для очень разных языковых пар.

Человеческая оценка перевода абзаца

Метрики автоматической оценки, которые обычно используются в машинном переводе, не подходят. Их корреляция с человеческими суждениями неизвестна при оценке переводов на уровне абзаца.

Мы не можем полагаться на автоматические метрики здесь.

Человеческая оценка остается основным выбором для получения оценки с высокой достоверностью, поэтому авторы этого исследования в основном полагались на структуру MQM (Lommel et al., 2014):

  • Отметьте диапазоны ошибок перевода и классифицируйте их
  • Сделать суждение о предпочтениях, какой из двух переводов более высокого качества
  • Предоставьте в свободной форме обоснование своих суждений о предпочтениях.

Для этой оценки они собрали в общей сложности 720 пар переведенных абзацев для 18 языковых пар.

Это много данных! Мне не терпится взглянуть на набор данных. Он будет выпущен на GitHub, здесь.

Машинный перевод литературных произведений

Для оценки эта работа решила сосредоточиться на переводе литературных произведений. Это может показаться странным выбором, поскольку большинство предыдущих работ в области машинного перевода были сосредоточены на других жанрах/областях (новости, пользовательские тексты и т. д.).

Машинный перевод художественных текстов недостаточно изучен и чрезвычайно сложен, особенно с системами машинного перевода, работающими на уровне предложений.

В тексте такого типа важны контекстуальные нюансы, но их невозможно уловить, если система самостоятельно переводит предложения. Часто людям-переводчикам приходится реструктурировать целые абзацы, чтобы точно перевести их на целевой язык.

Перевод художественных текстов интуитивно представляет собой задачу, в которой система, принимающая документ или абзац в качестве входных данных, будет работать лучше, чем система, принимающая только более короткие входные данные.

Но основное ограничение, с которым мы сталкиваемся при оценке больших языковых моделей, заключается в том, что данные, используемые для оценки, должны быть свежими. Это важно для достоверности оценки. Используя для оценки недавно опубликованные данные, мы избегаем перевода текстов, которые могли бы использоваться для обучения оцениваемой модели, т. е. избегаем загрязнения данных.



В этой работе большинство переводов, использованных для оценки, были опубликованы после 2021 года. Скорее всего, именно эти переводы отсутствовали в обучающих данных GPT-3.5, которые были обучены на данных, опубликованных до 2022 года в соответствии с OpenAI.

Однако переведенные оригинальные тексты намного старше (опубликованы с 1884 по 2020 год). Скорее всего, они были замечены системами, оцениваемыми в этой работе (GPT-3.5 и Google Translate).

Кроме того, хотя маловероятно, что оцениваемые системы видели эти конкретные переводы, они могли видеть другие переводы на другие языки или на тот же язык, но опубликованные ранее.

Загрязнение данных ограничено, но происходит. Я не думаю, что есть лучший способ полностью предотвратить это для художественных текстов. Но для других жанров, например новостей, это возможно.

Очень разнообразный набор языковых пар

Это одна из самых сильных сторон этой работы: авторы оценивали очень разные языковые пары.

В качестве исходных языков они выбрали языки из разных семей: индоевропейскую (романскую, германскую, славянскую), китайско-тибетскую и японскую. Таким образом, они гарантируют, что оценка сможет более точно определить сильные и слабые стороны GPT-3.5 при переводе языков с различными морфологическими особенностями и системами письма.

Языки для перевода, используемые для оценки: английский (en), польский (pl), русский (ru), чешский (cs), французский (fr), немецкий (de), японский (ja) и китайский (zh).

Для целевых языков они выбрали языки для создания пар исходных и целевых языков, которые являются «простыми» (похожие языки) и «сложными» (непохожие языки).

Например, чешско-польский — простая языковая пара, так как у этих языков много общего. С другой стороны, японский-польский — чрезвычайно сложная языковая пара, поскольку эти два языка принадлежат к очень далеким языковым семьям с разными грамматиками и системами письма. Также существует очень ограниченное количество исследований по машинному переводу для этой языковой пары.

Выбранными целевыми языками для каждого исходного языка являются английский (en), японский (ja) и польский (pl).

Подскажите инженерку для перевода с GPT-3.5

Одним из наиболее важных шагов при оценке больших языковых моделей является разработка подсказок.

Есть много возможных подсказок для машинного перевода. В идеале, мы должны всесторонне оценить несколько из них, чтобы оценить, насколько эффективным является выбор подсказки.

Мы также должны иметь в виду, что выводы, сделанные в научной работе, могут быть справедливы только для очень конкретных подсказок, которые мы оцениваем.

Включение большого количества подсказок в оценку дорого обходится, поскольку для каждой подсказки приходится выполнять вывод с большой языковой моделью. На практике это означает, что мы можем выбрать только ограниченное количество подсказок для проведения оценки.

Они использовали 5-этапное контекстное обучение для перевода с помощью GPT-3.5. В подсказке есть 5 примеров перевода, чтобы точнее указать, что ожидается от GPT-3.5.

Выбранные примеры перевода оказывают решающее влияние на качество перевода языковой модели. Как показано Vilar et al. (2022), главное качество перевода примеров.

О выборе примера они написали:

Мы вручную отбираем пять демонстраций из литературных текстов для каждой из 18 языковых пар, в результате чего всего 90 демонстрационных примеров. Эти демонстрации взяты из романов, которые не являются частью нашего набора данных перевода, что приводит к возможным различиям в теме и стиле […]

Это не очень подробно. В частности, здесь я понятия не имею, что включает в себя «врач». Критерии курирования не указаны.

После выбора они включили примеры в три подсказки, которые используют контексты разного размера.

Шаблон подсказки на уровне предложения

В этом шаблоне предложения абзацев для перевода передаются GPT одно за другим. Вот как работают стандартные нейронные системы машинного перевода от последовательности к последовательности.

Исходный текст на [SRC LANG]:

исходное предложение

Перевод на [TRG LANG]:

целевое предложение

Примечание. [SRC LANG] и [TRG LANG] обозначают исходный и целевой языки соответственно.

Перевод на уровне предложения с помощью шаблона контекстной подсказки

Перевод по-прежнему выполняется на уровне предложений, но предложения передаются с учетом их контекста в GPT-3.5: то, что предшествует предложению в абзаце, и то, что следует за ним, находится в подсказке.

Исходный текст на [SRC LANG]:

исходный префикс

‹translate› src отправлено ‹/translate›

исходный суффикс

Перевод на [TRG LANG]:

целевой префикс

‹переведено› trg отправлено ‹/переведено›

Я нашел этот дизайн довольно творческим, но также и рискованным. По моему опыту, модели GPT можно легко спутать, если мы явно не определим теги. В этой ситуации я не удивлюсь, если GPT просто переведет все, включая теги («перевести» и «перевести»).

Шаблон подсказки на уровне абзаца

Шаблон такой же, как и в первом, но здесь вместо предложений представлены целые абзацы.

Исходный текст на [SRC LANG]:

исходный абзац

Перевод на [TRG LANG]:

целевой абзац

Теперь, когда у нас есть подсказки, мы можем использовать их для оценки качества перевода GPT-3.5.

Оценка GPT-3.5 для перевода абзацев

Эта оценка в основном направлена ​​на получение ответов на два вопроса:

  • Являются ли большие языковые модели, такие как GPT-3.5, лучше при переводе целых абзацев, а не предложений?
  • Как GPT-3.5 работает по сравнению с Google Translate при переводе целых абзацев?

Для этой оценки авторы в основном полагаются на оценку человека с использованием структуры MQM.

Если вы знакомы с моей работой, вы уже знаете, насколько критическим я могу быть, когда пишу об оценке машинного перевода.



Для этой работы авторы оценили свои системы машинного перевода с очень высокой научной достоверностью. Если вы ищете пример хорошей оценки машинного перевода, это один из них. Примечание: я также рекомендую прочитать «Подсказка PaLM для перевода: оценка стратегий и производительности» (Vilar et al., 2022). Перевод?»».

Они не полагались на автоматические метрики, но по-прежнему предоставляли оценки метрик для дополнительного анализа. Также предоставляются все детали для воспроизведения результатов. Это крайне редко.

Они даже проверили статистическую значимость своей человеческой оценки.

Результаты:

  • GPT-3.5 лучше переводит абзацы, чем отдельные предложения
  • GPT-3.5 лучше Google Translate

Но эти результаты различаются в зависимости от языковой пары.

Для направления перевода с немецкого на японский перевод отдельных предложений дает лучшие результаты. Это единственное исключение. По мнению авторов, это связано с тем, что данные, используемые для этого направления перевода, имеют очень длинные предложения.

Что меня больше всего удивляет, так это то, что GPT-3.5 также лучше Google Translate при переводе отдельных предложений.

Автоматические метрики также дают очень похожие результаты: COMET, BLEURT, BERTScore и COMET-QE согласны с тем, что GPT-3.5 лучше, чем Google Translate, с любым из 3 шаблонов подсказок.

В статье представлен очень расширенный анализ их человеческой оценки. Я не буду обсуждать это больше в этой статье, но предлагаю вам прочитать ее. Это очень познавательно.

Ограничения моделей GPT для перевода

В документе есть раздел «ограничения» (раздел 7), в котором авторы обсуждают ограничения использования моделей GPT для трансляции.

Авторы отмечают, что ошибки перевода, допущенные при переводе абзацев, отличаются от ошибок, допущенных при переводе отдельных предложений.

При переводе абзацев GPT-3.5 иногда пропускает и забывает часть содержания абзаца, что приводит к неправильному переводу. Аналогичное поведение я наблюдал и при игре с ChatGPT для перевода.

Эту проблему можно исправить, настроив GPT-3.5 для машинного перевода. Примечание. Не будем забывать, что оцениваемая здесь модель GPT-3.5 не была настроена для машинного перевода.

Помимо этого, GPT-3.5 по-прежнему делает некоторые более распространенные ошибки типа, такие как неправильный перевод и грамматические ошибки, но гораздо меньше, чем Google Translate, как показала оценка.

Ограничения этой работы

Я изо всех сил пытался найти ограничения для этой работы, но, по моему мнению, есть по крайней мере одно.

Влияние шаблонов подсказок неясно. Конкретный шаблон, выбранный для перевода абзаца, работает лучше, чем шаблон, выбранный для перевода предложения.

Но можем ли мы с этой настройкой заключить, что GPT-3.5 работает лучше при переводе целых абзацев?

Если мы изменим шаблоны, сделаем ли мы тот же вывод?

Мы не можем легко ответить на этот вопрос. Я ожидаю, что это ограничение будет общим для всей будущей работы по оценке языковых моделей для машинного перевода.

Также данная работа посвящена переводу художественных текстов. Мы не можем быть уверены, что вывод этой работы применим к другим жанрам. Мне не терпится прочитать будущую работу, которая восполнит этот пробел.

Заключение

Эта работа является вехой в машинном переводе.

Это показывает с очень высокой научной достоверностью, что большая языковая модель может превзойти более стандартные нейронные системы машинного перевода, такие как Google Translate. Это также демонстрирует, что перевод на уровне абзаца с большой языковой моделью обеспечивает лучшее качество перевода, чем перевод на уровне предложения.

Благодаря этой работе и предыдущему исследованию качества перевода PaLM у нас появляется все больше и больше доказательств того, что будущее машинного перевода будет основано на больших языковых моделях.