Какая из нескольких различных реализаций систем машинного перевода лучше?
Как изменение алгоритма или изменение обучающих данных влияет на оценку производительности систем машинного перевода во время исследований и разработок систем машинного перевода?
Чтобы ответить на эти вопросы, нам всем нужно установить стандарт производительности машинного перевода.
Оценку машинного перевода можно разделить на метод ручной оценки и метод автоматической оценки.
В любом случае качество перевода обычно оценивается по предложениям как единицам и, наконец, дает общие баллы на тестовых наборах, содержащих большое количество предложений (обычно несколько тысяч предложений).

3. Оценочная деятельность.

Как следует из названия, ручная оценка означает, что эксперты-лингвисты измеряют степень перевода между исходным текстом и целевым текстом на основе своего понимания двух языков.
Для вывода результатов системы машинного перевода экспертов просят просмотреть каждый перевод один за другим и оценить его правильность.
Обычно используемый метод оценки заключается в том, чтобы позволить оценщикам вручную оценивать перевод в соответствии с его правильностью.
В традиционном понимании перевод обращает внимание на «верность, выразительность и изящество», в котором «изящность» в большей степени воплощает литературно-творческий способ перевода, который не подходит для использования в качестве количественного оценочного показателя.
Поэтому правильность перевода обычно измеряется «верностью» и «выразительностью». В частности, достоверность и беглость используются в качестве критериев при ручной оценке.

Верность относится к тому, насколько перевод правильно выражает содержание исходного текста и сколько информации он сохраняет, включая точность перевода и охват слов в тексте, что эквивалентно «достоверности».

Беглость относится к тому, является ли язык перевода беглым и аутентичным, и соответствует ли он привычкам выражения языка перевода, включая порядок слов, употребление времени, форму слова и словосочетание и т. д., что эквивалентно «выразительности». .
Процесс ручной оценки — это субъективное суждение о качестве машинного перевода. чем выше балл в фактической оценке, тем лучше перевод.
В следующем списке показан пример стандарта оценки на основе 5-балльной шкалы.
Оценка проводится на всем тестовом наборе. во-первых, для каждого результата перевода предложения выставляется комплексная оценка, или точность и беглость оцениваются отдельно, и, наконец, баллы всех предложений в тестовом наборе суммируются, а затем усредняются. примите это как общий результат оценки.

Примерные критерии оценки по 5-балльной шкале:
1 балл: очень плохо.
2 балла: плохо.
3 балла: общее.
4 балла: хорошо.
5 баллов: очень хорошо.
Результаты ручной оценки могут напрямую и достоверно отражать общее впечатление пользователей о качестве машинного перевода.
Однако человеческие и финансовые затраты на процесс оценки очень высоки, и нельзя гарантировать воспроизводимость и согласованность результатов оценки, то есть для одного и того же предложения, в разные периоды времени или разными оценщиками, баллы могут быть разными.
Например, после разработки нового алгоритма машинного перевода мы надеемся проверить, улучшил ли алгоритм качество перевода. В настоящее время ручная оценка очень трудно выполнить это требование.
Поэтому нам необходимо найти решение для автоматической оценки.

2. Автоматическая оценка.
По сравнению с оценкой вручную, метод автоматической оценки менее затратен и воспроизводим.
Для автоматической оценки требуется эталонный перевод тестового набора.
Справочный перевод обычно является результатом ручного перевода.
Индекс автоматической оценки предназначен для вычисления степени сходства или отклонения между машинным переводом и эталонным переводом определенным образом и выражения его в виде числового значения.
Если это числовое значение указывает на то, что машинный перевод близок к эталонному переводу или отличается от него, это означает, что качество машинного перевода высокое.
Ожидается, что этот непрямой подход будет отражать оценку пользователями качества машинного перевода.
Кроме того, критерий автоматической оценки также используется в качестве показателя оптимизации системы и вводится в модель обучения системы машинного перевода.
Язык гибок, и часто в одной и той же семантике существуют разные формы языкового выражения.
Таким образом, при одинаковом исходном языке будет много разных разумных результатов перевода.
Например, для исходного китайского предложения «你好!» существует множество соответствующих английских переводов, в том числе:

(а) Привет!
Б) Привет!
(с) Как дела!
(г) Как дела!
(д) Как дела!
Одна из трудностей автоматической оценки машинного перевода заключается в том, что невозможно перечислить все возможные разумные целевые предложения.
В самом процессе оценки эталонный перевод иногда выбирает несколько предложений с одинаковым значением, но разными выражениями, чтобы уменьшить влияние односторонности эталонного перевода на результаты оценки.
Еще одна трудность в оценке машинного перевода заключается в разнице между результатами машинного перевода и сходством перевода, а также человеческим распознаванием качества машинного перевода.
В настоящее время предложено множество различных типов автоматических методов оценки, и их цель — приблизить сходство к результату человеческого различения.
Методы автоматической оценки, предложенные исследователями, включают BLEU, NIST, WER и TER, METEORWoodPecker..
GTM (Melamed et al., 2003), MAXSIM (Chan et al., 2008). TESLA (Liu et al., 2010) и MEANT (Lo et al., 2011) и т. д.
Ниже приводится краткое введение в несколько часто используемых методов автоматической оценки.
BLEU в настоящее время является наиболее широко используемым индексом автоматической оценки. Из-за своей простоты и надежности он используется в качестве официального индекса оценки различными организациями по оценке машинного перевода.
BLEU в основном используется для оценки качества перевода наборов машинного перевода на уровне текста.
Его принцип заключается в измерении степени совпадения фрагментов фраз разной длины между машинным переводом текста и переводом текстовой ссылки, а диапазон совпадения ограничен внутренней частью предложения.
Конкретный метод расчета заключается в подсчете доли количества n-мерных грамматик, совпадающих между машинным переводом и эталонным переводом, по отношению к общему количеству n-мерных грамматик в машинном переводе.
Когда длина машинного перевода фиксирована, чем больше количество совпадений, тем выше качество перевода-кандидата.
На основе расчета коэффициента соответствия n-арных грамматик индекс BLEU также вводит коэффициент штрафа за длину, чтобы короткие переводы не получали более высокие баллы.
Формула для оценки BLEU:

B L E U=B P \cdot \exp \left(\sum_{n=1} W_{n} \log P_{n}\right)

Где N — длина самой длинной проверенной последовательности слов (обычно берут N = 4, помечается как BLEU/-4), P_{n}=m_{n} / h_{n} — точность всех n-х метаграмматических сопоставлений. в тексте
(где m_{n} — n-й день метаграмматики правильного совпадения в тексте,
h_{n} — общее количество раз, когда n-я метаграмматика встречается в машинном переводе в тексте),
W_{n} — вес n-го соответствия метаграмматики (обычно значение равно 1/N),
log — логарифмическая операция, вес n-го соответствия метаграмматики — вес n-го сопоставления метаграмматики, а вес n-го сопоставления метаграмматики обычно принимается как логарифмическая операция.
В этой статье базовым числом операции журнала является e, а аббревиатура log
BP — это коэффициент штрафа за длину, который наказывает результирующее предложение, длина которого короче, чем длина эталонного перевода.

BP=\left\{\begin{array}{ll}
1 & \text { if } c›r \\
e^{(1-r / c)} & \text { if } c \leqslant r
\end{массив}\right.

c — сумма длины машинного перевода текста (считая со словом), F — сумма длины эталонного перевода текста.
При использовании нескольких эталонных переводов в каждом предложении наивысшая степень соответствия последовательности слов вычисляется для всех эталонных переводов, но в сумму длины эталонного перевода текста включается только длина одного эталонного перевода. .
Метод заключается в том, чтобы выбрать только ту длину эталонного перевода, которая наиболее близка к длине машинного перевода, и подсчитать ее в r.
Если есть еще несколько эталонных переводов, длина которых также наиболее близка к длине машинного перевода, для подсчета длины эталонного перевода в r выбирается более короткий из них.
Кроме того, время появления каждой n-й грамматики в машинном переводе будет считаться правильным, только если оно встречается столько же или больше раз в эталонном переводе.
Сопоставление последовательности слов не может охватывать предложения, то есть последовательность слов в текущем предложении машинного перевода может совпадать только с последовательностью слов в соответствующем предложении эталонного перевода, но не с эталонным переводом, соответствующим другим предложениям.
Вот пример, иллюстрирующий метод расчета BLEU.
Предположим, что текст содержит только одно предложение, и каждое предложение соответствует двум эталонным переводам:

Примеры исходного языка, машинного перевода и справочного перевода.
Исходный язык предложений: 桌上放着一本书。
Машинный перевод: the book is on the table.
Справочный перевод 1: на столе лежит книга.
Справочный перевод 2: Книга на столе

В следующей таблице показано сопоставление n-арных грамматик и точность сопоставления между ними.

Расчет балла BLEU-4 между машинным переводом и эталонным переводом

n=1;

Общее количество последовательностей слов: 6;

Ситуация совпадения последовательности слов: #the=1, #book=1, #is=1, #on=1, #table= 1;

Подходящий номер: 5;

P_{n}= 5/6;

n=2;

Общее количество последовательностей слов: 5;

Ситуация совпадения последовательности слов: #book_is=1, #is_on=1, #on_the=1, #the_table=1

Подходящий номер: 4;

P_{n}= 4/5;

n=3;

Общее количество последовательностей слов: 4;

Ситуация совпадения последовательностей слов: #book_in_on=1, #is_on_the=1, #on_the_table=1;

Соответствующее число: 3;

P_{n}= 3/4;

n=4;

Общее количество последовательностей слов: 3;

Ситуация совпадения последовательности слов: #book_is_on_the=1;

Соответствующий номер: 1;

P_{n}= 1/3;

Обратите внимание, что слово «the» появляется дважды в машинном переводе, но только один раз в каждом эталонном переводе, поэтому его соответствующий номер равен 1.
Кроме того, длина машинного перевода меньше, чем длина любого эталонного перевода. , поэтому для вычисления коэффициента штрафа за длину выбирается длина второго ссылочного перевода, ближайшая к длине.
Таким образом, на основе формулы оценка машинного перевода по BLEU-4 рассчитывается как

\left (\ frac {5} {6} \ times \ frac {4} {5} \ times \ frac {3} {4} \ times \ frac {1} {3} \ right) ^ {\ frac {1 {4}} \times e^{1-\frac{7}{6}} \примерно 0,5409

Основываясь на методе расчета BLEU, мы также предлагаем несколько вариантов методов.
Например, метод PLEU_ {+ 1} добавляет 1 к количеству совпадений и вхождений всех n-арных грамматик.
Цель добавления 1 — избежать переполнения при вычислении индекса BLEU при измерении качества перевода одного предложения, поскольку произведение коэффициента совпадения в формуле BLEU равно нулю, поскольку число совпадения определенной метаграмматики равно нулю.
Идея индекса NIST (Boddington, 2002) состоит в том, чтобы присвоить им разные веса в соответствии с частотой n-арных грамматик на основе индикаторов BLEU.
Считается, что N-арные грамматики с низкой частотой содержат больше информации, поэтому им придается больший вес.
Конкретная формула расчета

NIST = \ sum_ {n = 1} ^ {N} \ left \ {\ frac {\ sum _ {\ text {dimaterednceseasemesiw}, \ cdots \ cdots w_ {n}} \ operatorname {info} \ left (w_ {1} \cdots w_ {n}\right)}{\sum_{\text{Aliwiwnin machne is}}(1)}\right\} \times \exp \left\{\beta \log ^{2}\left[\ мин \ влево (\ гидроразрыва {L _ {\ текст {боль}}} {\ бар {L} _ {\ текст {ссылка}}}, 1 \ вправо) \ вправо] \ вправо \}

Где \operatorname{info}\left(w_{1} \cdots w_{n}\right)=\log \left(\frac{\operatorname{Count}\left(w_{1} \cdots w_{n-1 }\right)}{\operatorname{Count}\left(w_{1} \cdots w_{n}\right)}\right), \text { Count }(\cdots) — частота последовательности слов в справочный перевод.
Длина машинного перевода равна Numb5 mathrm L _ {\ mathrm {sys}}.
\ bar {L} _ {\ mathrm {ref}} — средняя длина эталонного перевода.
Коэффициент штрафа за длину устанавливается равным 2/3, когда длина машинного перевода достигает 0,5 средней длины эталонного перевода.

В дополнение к методам оценки, таким как BLEU и NIST, вычисляющим сопоставление n-арной грамматики, другой вид метода оценки основан на вычислении расстояния редактирования.
Они измеряют расстояние между машинным переводом и эталонным переводом на уровне слов и подсчитывают количество правок, необходимых для превращения машинного перевода в эталонный перевод, включая количество перемещений любого фрагмента.
Типичные методы оценки, основанные на расстоянии редактирования, включают индекс частоты ошибок в словах и индекс TER.
Индекс частоты ошибок в словах ((частота ошибок в словах, WER) предназначен для прямого вычисления расстояния Левенштейна между двумя последовательностями слов машинного перевода и эталонного перевода, то есть минимального количества шагов, необходимых для замены, вставлять и удалять слова из машинного перевода в эталонный перевод.
Чем меньше число шагов операции, то есть чем меньше расстояние, тем ближе машинный перевод к эталонному переводу.
Слово Широко используется метод коэффициента ошибок, который в основном вычисляет расстояние между строками слов с помощью алгоритма динамического программирования.
Недостатком этого метода является то, что он не учитывает изменение порядка слов в предложениях.

Индекс TER (Snoverand et al., 2006) также представляет собой широкий спектр стандартов оценки автоматического перевода.
Учитывается максимальное сходство между переставленными словами или фразами в машинном переводе и эталонном переводе.
В частности, TER непрерывно сдвигает фрагменты (слова или фразы), которые соответствуют машинному переводу с эталонным переводом e при определенных ограничениях, так что значение WER между новым переводом-кандидатом e 'и эталонным переводом e непрерывно уменьшается до тех пор, пока больше не уменьшается.
Метод расчета ТЭР равен количеству всех сдвигов (сдвигов) из\шап{е} в е' и отношению суммы операций вставки (вставки), удаления (удаления) и замены ( замена) с e' на e на длину эталонного перевода N

TER(\hat{e}, e)=\frac{\# \text { Ins }+\# \text { Del }+\# \text { Sub }+\# \text { Shift }}{N} \ умножить на 100 \%

Общей чертой вышеупомянутого метода оценки является то, что он не учитывает сопоставление синонимов и синонимов в машинном переводе и эталонном переводе.
Чтобы уменьшить односторонность эталонного перевода, метод METEOR (Banerjee and Lavie, 2005) учитывает сопоставление основ и синонимов.
Конкретный подход заключается в том, чтобы сначала сопоставить машинный перевод в соответствии с формой слова и эталонным переводом, затем восстановить несопоставленные слова с помощью таких ресурсов, как словари, а затем сопоставить их и, наконец, сопоставить оставшиеся несопоставленные слова с помощью внешнего ресурсы, такие как Wordnet, для сопоставления семантических классов.
Видно, что индекс METEOR пытается увеличить соответствие в лингвистическом смысле и уделять больше внимания скорости повторения совпадения.
Его недостатком является то, что он требует привлечения внешних ресурсов, вычислительная сложность выше, чем у других методов, и в процессе расчета вводится много неопределенных параметров, таких как корректировка веса сопоставления на разных этапах.
Кроме того, существует также класс автоматических методов оценки, учитывающих способность обнаруживать определенную синтаксическую структуру, семантические знания, текст и другую информацию.
Например, программа Woodpecker (Zhou et al., 2008), основанная на дереве синтаксического анализа предложения исходного языка и эталонного перевода, извлекает десятки лингвистических контрольных точек из предложения исходного языка и эталонного перевода, включая словосочетания существительных, словосочетания глагол-объект, предложные фразы и неологизмы и т. д.
Во-вторых, используя результаты выравнивания слов между предложением исходного языка и машинным переводом и эталонным переводом, используя предложение исходного языка в качестве посредника, получены соответствующие отношения различных точек обнаружения между машинным переводом и эталонным переводом.
Наконец, качество перевода системы машинного перевода в конкретных языковых явлениях измеряется путем расчета степени совпадения точек обнаружения между машинным переводом и эталонным переводом.

Организационные структуры в стране и за рубежом каждый год занимают разные уровни и влияют на деятельность по оценке систем машинного перевода, что не только является катализатором, способствующим постоянному развитию исследований в области машинного перевода, но также в определенной степени отражает текущий фактический уровень машинного перевода. .
Мероприятия по оценке известных международных и отечественных машинных переводов включают публичную оценку машинного перевода NIST (оценка открытого машинного перевода NIST, Openmt), оценку семинара по машинному переводу (воркшоп по машинному переводу, WMT), международный семинар по устному переводу (внутренний семинар по устной речи). языковой перевод (IWSLT), оценка семинара по азиатскому переводу (семинар по азиатскому переводу, WAT) и оценка национального семинара по машинному переводу (CWMT).
Оценочная деятельность NIST началась с многоязычного проекта по обнаружению, извлечению и абстрагированию информации (транслингвальное обнаружение, извлечение, обобщение информации, TIDES) Агентства перспективных оборонных исследовательских проектов (DARPA)). Позже он был в основном организован, координирован и продвигался Национальным институтом стандартов и технологий ((национальный институт стандартов и технологий, NST).
С 2001 г. проводилось десять оценочных мероприятий NIST один раз в год в начале этапе и каждые два-три года на более позднем этапе.
Команды, которые регистрируются для участия в конкурсе, могут бесплатно получить корпус, указанный в оценочной деятельности, и представить результаты перевода своих соответствующих систем на тестовом наборе в течение запланированный срок.
Организаторы оценочной деятельности организуют силы для автоматической и ручной оценки результатов каждого машинного перевода, затем дадут отзыв о результатах оценки на последующем семинаре (семинар по машинному переводу), а также обменяться и обсудить технологию машинного перевода.
Оценочная деятельность NIST была ограничена оценкой перевода между китайским, арабским и английским языками. используется для задач перевода ((ленты новостей) группы новостей ((группы новостей) и некоторых веб-страниц с относительно стандартизированным текстовым форматом. В 2015 году в рамках оценочной деятельности (OpenMT 2015) также была проведена оценка перевода неформальных текстов, таких как текстовые сообщения, чаты и разговорные голосовые тексты.
Оценка WMT – еще одна влиятельная деятельность по оценке машинного перевода, которая в основном сосредоточена на оценке перевода между европейскими языками. В 2017 г. была добавлена ​​задача оценки китайско-английского перевода.
С 2006 г. оценка WMT сопровождается ведущими конференциями в области обработки естественного языка (такими как ACL и EMNLP) в форме семинаров.
Он характеризуется оценкой предметно-ориентированного перевода, обработки конкретных задач и конкретных модулей системы машинного перевода в дополнение к оценке качества обычной системы машинного перевода. например, оценка перевода данных биологической области, перевод местоимений, алгоритмы отладки системы и так далее.
Мероприятия по оценке IWSLT проводятся ежегодно в связи с международным семинаром по устному переводу.
Он в основном ориентирован на оценку перевода устных данных, особенно на задачи перевода в сценариях приложений, связанных с туризмом, таких как транспорт, размещение, бронирование билетов и т. д.
Учебный корпус, используемый в этом оценочном упражнении, небольшой по масштабу, содержит около 100 000 пар двуязычных предложений, охват корпуса сконцентрирован, а избыточность словарного запаса высока, поэтому он подходит для проверки эффекта новая модель машинного перевода и новый алгоритм.
Мероприятие по оценке WAT, которое в основном сосредоточено на оценке перевода азиатских языков, проводилось в течение четырех сессий подряд до 2017 года, и его оценка перевода в области (научных статей) научных и технических работ является главная особенность.
В дополнение к вышеупомянутым международным мероприятиям по оценке, мероприятия по оценке национального машинного перевода (CWMT), организованные Китайским информационным обществом Китая, также становятся все более и более влиятельными.
Деятельность по оценке CWMT направлена ​​не только на перевод между китайским и английским языками, но и на задачи по оценке перевода восточноазиатских языков (например, перевод между китайским и японским) и перевод с китайских языков меньшинств на китайский, таких как тибето-китайский, уйгурско-китайский, монголо-китайский и другие языки.

Каковы методы оценки машинного перевода?