Очень надежная система машинного перевода

ChatGPT — чат-бот, разработанный OpenAI. Он основан на instructGPT: он обучен следовать инструкциям или так называемым подсказкам, написанным пользователями, и отвечать на них.

ChatGPT демонстрирует впечатляющие возможности предоставления последовательных и подробных ответов на запросы пользователей. Кажется, что он особенно хорошо справляется с задачами обработки естественного языка (NLP), такими как обобщение, ответы на вопросы, генерация языка и машинный перевод.

Однако, поскольку это совсем новая система, ChatGPT предстоит провести надлежащую научную оценку, чтобы сравнить ее эффективность НЛП с предыдущей работой.

В этом направлении Tencent AI опубликовал предварительное исследование способности ChatGPT переводить:

Является ли ChatGPT хорошим переводчиком? Предварительное исследование, авторы Вэньсян Цзяо, Вэньсюань Ван, Джен-цзе Хуанг, Син Ван и Чжаопэн Ту (Tencent AI)

Основная цель этого исследования — оценить ChatGPT для перевода текста на английский язык, поскольку большая часть его обучающих данных представлена ​​на английском языке. Примечание. Действительно, ChatGPT основан на instructGPT, как упоминалось в сообщении в блоге. InstructGPT — это GPT-3 с тонкой настройкой подсказок в основном на английском языке (Ouyang et al., 2022). Более того, 93 % предтренировочных данных GPT-3 — на английском языке (Brown et al., 2020).

Они также оценивают перевод на другие языки, которые гораздо меньше представлены в обучающих данных, такие как японский и румынский, и, следовательно, более сложные.

В этой статье я проанализирую и объясню их основные выводы, особенно чтобы выделить, что работает, а что нет при использовании ChatGPT в качестве системы машинного перевода.

Подсказка о переводе

При работе с генеративными языковыми моделями одним из наиболее важных шагов является быстрое проектирование.

Нам нужно найти подходящую формулировку на естественном языке для запроса модели с учетом нашей целевой задачи. Здесь мы хотим, чтобы ChatGPT переводил предложение на исходном языке, обозначенном «[SRC]», на целевой язык, обозначенный «[TGT]».

Чтобы найти хорошие подсказки, искусственный интеллект Tencent напрямую попросил ChatGPT дать 10 подсказок со следующей подсказкой:

Предоставьте десять кратких подсказок или шаблонов, которые помогут вам перевести.

ChatGPT вернул, как и ожидалось, 10 запросов, но с небольшими различиями между ними. В конце концов они решают попробовать только следующие 3, которые являются наиболее репрезентативными из 10 подсказок, первоначально возвращенных ChatGPT:

  • Подсказка 1. Переведите эти предложения с [SRC] на [TGT]:
  • Подсказка 2: Ответ без кавычек. Что означают эти предложения в [TGT]?
  • Подсказка 3: Пожалуйста, предоставьте перевод [TGT] для этих предложений:

Они оценили каждую из этих подсказок в задаче перевода с китайского на английский ([SRC]=китайский, [TGT]=английский) и получили следующие результаты:

BLEU, chrF++ и TER — это 3 автоматические метрики для оценки качества машинного перевода. С BLEU и chrF++ чем выше результат, тем лучше. С TER чем ниже баллы, тем лучше.

Основываясь на оценках, полученных с помощью этих трех показателей, они обнаружили, что подсказка 3 работает лучше всего. Подсказка 2 также кажется лучше, чем Подсказка 1, хотя результаты chrF++ выглядят одинаково.

Это интересно, потому что в первой подсказке упоминается исходный язык, а в двух других нет. Тем не менее, подсказка 1 работает хуже. ChatGPT не нужно знать язык текста, который мы хотим перевести.

Это впечатляет, но также и противоречит здравому смыслу. Мы могли ожидать, что ChatGPT будет более точным благодаря точности исходного языка в его подсказках. Для переводчиков-людей знание исходного языка имеет решающее значение.

В настоящее время нет хорошего объяснения того, почему ChatGPT дает более низкие оценки при указании исходного языка. Мы можем предположить, что ChatGPT может автоматически определять исходный язык из пользовательского ввода. Если это так, предоставление исходного языка не должно иметь никакого влияния, вместо негативного влияния, наблюдаемого в результатах Tencent AI.

Общий перевод

Теперь, когда мы нашли подходящую подсказку, мы можем сравнить ChatGPT с современными системами машинного перевода.

Tencent AI выбрала для сравнения онлайн-системы: Google Translate, DeepL и собственную онлайн-систему Tencent TranSmart.

Результаты приведены ниже:

Три онлайн-системы работают одинаково и, похоже, работают лучше, чем ChatGPT, хотя авторы не сообщают о статистически значимом тестировании, чтобы убедиться, что различия действительно значительны.



Тем не менее, я нашел эти результаты впечатляющими. Основываясь на instructGPT, мы можем предположить, что ChatGPT в основном обучается на данных английского языка, но, похоже, способен улавливать значение китайских предложений достаточно хорошо для создания английских переводов.

Если бы мы могли настроить ChatGPT для перевода с китайского на английский, мы бы точно получили перевод гораздо более высокого качества.

В документе Tecent AI также сообщает об аналогичных различиях для всех направлений перевода между английским, китайским, немецким и румынским языками.

Опять же, выступления (в BLEU) впечатляют. Даже для направлений перевода, не связанных с английским языком, например с немецкого на китайский, ChatGPT может генерировать переводы. Согласно BLEU, онлайн-системы остаются лучше, как и ожидалось, поскольку они обучены этой задаче. ChatGPT — нет!

Результаты с участием румын совсем другие. Например, оценка BLEU для ChatGPT почти на 50% ниже, чем для онлайн-систем. Это различие, вероятно, является статистически значимым.

Авторы предлагают объяснение. Румынский язык — это язык, для которого доступно гораздо меньше ресурсов, например румынский текст в Интернете, чем для немецкого и китайского. ChatGPT, возможно, заметил во время обучения слишком мало примеров предложений на румынском языке, чтобы точно смоделировать их.

Я бы согласился с этим предположением, но его следует подтвердить дополнительными экспериментами с другими языками с аналогичным объемом ресурсов, такими как хорватский или польский.

Домен и надежность

Они провели дальнейшие эксперименты, чтобы оценить эффективность ChatGPT при переводе текстов в конкретной области (биомедицинской) и сгенерированных пользователями (размещенных в социальных сетях, обычно очень шумный с грамматическими ошибками).

Удивительно, но производительность ChatGPT остается близкой к онлайн-системам для перевода биомедицинских текстов с немецкого на английский, согласно BLEU.

На ChatGPT, похоже, не оказывают негативного влияния очень специфические термины, используемые в биомедицинских текстах.

ChatGPTпревосходит онлайн-системы при переводе пользовательских текстов с немецкого на английский. Это впечатляет, но менее удивительно. Мы можем предположить, что ChatGPT содержит множество сообщений в социальных сетях в обучающих данных (просканировано из Интернета), в то время как обучающие данные онлайн-систем, используемые для сравнения, обычно тщательно отбираются и, следовательно, несколько менее надежны для ошибки (грамматические, смысловые и др.).

Эта задача намного сложнее для ChatGPT при переводе на языки, далекие от английского, такие как японский, как показали результаты на WMT20 Rob2, как и ожидалось.

Ограничения этого исследования

Авторы признают в своем исследовании, что необходимы дополнительные эксперименты с большим количеством языковых пар, чтобы лучше оценить качество перевода ChatGPT.

Эта оценка должна выполняться человеком, а не автоматическими показателями, которые часто неточны, особенно когда оценки сравниваемых систем очень близки.

Отсутствие человеческой оценки является основным ограничением этой работы.

На мой взгляд, влияние подсказки можно было бы также дополнительно исследовать. Авторы выбрали очень оригинальный способ, позволив самому ChatGPT предлагать подсказки. Но заставлять ChatGPT предлагать подсказки — это проблема курицы и яйца. Сама подсказка, используемая для получения подсказок для машинного перевода, может оказать сильное влияние на все последующие эксперименты, проведенные в этом исследовании. В предыдущей работе над дизайном подсказок для машинного перевода использовались очень разнообразные подсказки, созданные вручную.



Заключение

ChatGPT впечатляет машинным переводом.

Из этого предварительного исследования мы уже можем сделать вывод, что ChatGPT будет хорош и, возможно, даже лучше, чем стандартные онлайн-системы, при переводе текста, для которого ожидается, что перевод будет иметь характеристики обучающих данных ChatGPT, например, зашумленные тексты, созданные пользователями. по-английски.

Тем не менее, как и ожидалось, ChatGPT по-прежнему отстает от более стандартных машинных систем для перевода на другие языки, кроме английского, особенно на отдаленные языки или языки с низким уровнем ресурсов, такие как японский или румынский.