Каждый год Intento выпускает подробный обзор текущего состояния рынка машинного перевода как для новичков, так и для опытных ветеранов.

Это шестой год, когда мы запускаем этот отчет, начиная с 2017 года. В нем мы оцениваем все коммерчески доступные системы, которые наша технология распознает на рынке, на основе лучших данных, которые мы можем собрать. Отчет за 2022 год был подготовлен совместно с e2f и предоставил первоклассный набор данных. Для подготовки мы перевели около 1 млн слов, уделив особое внимание 11 языковым парам и 9 различным доменам.

На AMTA 2022 в Орландо генеральный директор Intento Константин Савенков и генеральный директор e2f Мишель Лопес рассказали о процессе отбора и подготовки данных, методологии отчета, основных показателях, на которые следует опираться при изучении результатов машинного перевода, и основных результатах отчета (наиболее эффективные механизмы машинного перевода для каждого сочетание языка/домена). Если вы пропустили его лекцию, продолжайте читать для полного резюме.

«Мы считаем, что к этим данным должен иметь доступ каждый пользователь машинного перевода».(Константин Савенков, соучредитель и генеральный директор, Intento)

Ландшафт машинного перевода

Глядя на ландшафт MT в 2022 году, у нас есть 54 поставщика, предоставляющих модели. В настоящее время большинство этих моделей являются нейронными, поэтому мы классифицируем их в зависимости от того, как вы можете использовать машинный перевод. Многие поставщики предоставляют общие модели акций, в то время как другие предварительно обучены для конкретных направлений, таких как фармацевтика или электронная коммерция. В то же время другие предоставляют поддержку пользовательской терминологии, позволяя добавлять глоссарии без обучения модели. «Автоматическая адаптация домена» позволяет вам нажать кнопку, чтобы настроить вашу модель с помощью памяти переводов (TM). Иногда вам нужно предоставить эти данные команде лингвистов, что мы называем «ручной адаптацией домена».

В следующем году мы планируем разделить Auto Domain Adaptation на «статическую адаптацию» (пакетное обучение TM) и «динамическую адаптацию», где вы сможете обучать свою модель каждому предложению.

Наш отчет State of the MT 2022 был сделан на стандартных предварительно обученных моделях, а это означает, что они не были настроены. Настройка позволяет улучшить модель на основе ваших собственных данных, что потенциально может изменить общий результат и рейтинг.

Наборы данных и подготовка

Сначала мы начали создавать эти отчеты по данным WMT, которые использовались всеми поставщиками машинного перевода для обучения и оценки своих моделей. Около года назад мы перешли на данные TAUS, но у нас все еще была проблема, поскольку многие провайдеры машинного перевода покупают свои данные у TAUS, создавая для них несправедливое преимущество.

В этом году мы хотели, чтобы данные были высокого качества и никто не имел доступа к соответствующим переводам до отчета.

Мы собрали английские тексты из различных общедоступных источников, убедившись, что их перевод не доступен в Интернете. Исходные тексты были переведены экспертами по предметным вопросам в e2f, и наши эксперты заявили, что это был лучший набор данных, который они когда-либо видели.

Подход к оценке

Выбор лучшей модели с наивысшим баллом имеет меньше смысла, чем ожидалось. Могут быть и другие модели с немного более низким баллом, но с таким же качеством.

Наша цель состояла в том, чтобы определить лучшие модели в том же доверительном интервале, что и лучшая модель. Мы также провели такой же ретроспективный анализ проектов коммерческой оценки (которые неизменно предполагают оценку человеком) и обнаружили, что примерно в 95% случаев, если модель попадала в эту верхнюю полосу из эталонного человеческого перевода, она должна быть победителем.

Вы заметите, что вместо 95% доверительных интервалов мы используем 83% — это потому, что при сравнении средних значений распределений это эквивалентно 95% доверительным интервалам для самих распределений (см. отчет для научных ссылок).

Какую оценку использовать

После подсчета всех доступных семантических и синтаксических оценок и их корреляций мы решили использовать COMET (semantic) для отчета этого года. Мы обнаружили, что COMET имеет наибольшую корреляцию с мнением рецензента.

COMET прогнозирует качество машинного перевода, используя информацию как из исходного ввода, так и из эталонного перевода. Это может привести к штрафам за определенные нюансы в переводах, такие как другой тон голоса или пол, из-за того, что эта метрика была обучена на определенном наборе данных и унаследовала его погрешности.

Лучшие двигатели MT в отрасли

Вы можете прочитать обо всех наших выводах — и изучить полную сводную таблицу — в официальном отчете за 2022 год, который можно бесплатно скачать здесь.

Среди идей, которые вы найдете внутри, вы увидите:

  • 16 движков, которые входят в число наиболее статистически значимых лидеров по 9 доменам и 11 языковым парам
  • Языки и языковые пары, в которых многие движки работают лучше всего.
  • Три домена требуют тщательного выбора поставщика машинного перевода, поскольку относительно немногие из них работают на высшем уровне.
  • Две области, в которых персонализация может иметь большее значение.

Еще один вывод заключается в том, что языковая поддержка значительно выросла, в первую очередь благодаря NiuTrans, Meta и Alibaba. Во всех моделях теперь поддерживается 125 тысяч языковых пар.

Мы также заметили, что количество поставщиков постоянно растет, и в этом году у нас появилось 5 новых поставщиков, в результате чего в общей сложности у нас появилось 54 поставщика MT. Среди этих поставщиков — модель с открытым исходным кодом от Meta, которая входит в число лучших вариантов для испанского языка.

Загрузите полный отчет, чтобы получить внутреннюю информацию о передовых инновациях MT. Чтобы задать дополнительные вопросы или получить бесплатную консультацию, запишитесь на нашу демонстрационную страницу.