Глубокое погружение в технологию нейронного машинного перевода (NMT) SYSTRAN

Глубокое погружение в технологию нейронного машинного перевода (NMT) SYSTRAN

Одна из замечательных особенностей моего нынешнего независимого статуса — это возможность глубоко взаимодействовать с другими экспертами по машинному переводу, которые ранее были закрыты, потому что конкурирующие поставщики машинного перевода обычно не общаются с открытым сердцем и открытым плащом. MT трудно преуспеть, и я думаю, что тяжелую работу следует оставить людям, которые настроены на долгосрочную перспективу и готовы играть, инвестировать и экспериментировать, несмотря на регулярные неудачи. Именно так люди, которые терпеливы и настойчивы, учатся и решают сложные проблемы.

Это первая часть статьи, состоящей из двух частей, посвященной анонсу продукта SYSTRAN NMT. Вторая часть будет посвящена сравнению NMT с RBMT и SMT, а также с последними инициативами Adaptive MT. Его можно найти здесь: Сравнение Neural MT, SMT и RBMT — перспектива SYSTRAN

Пресс-релизы настолько наполнены маркетинговой лексикой, что для большинства из нас совершенно бесполезны. В них много слов, но после того, как вы их прочтете, вы поймете, что на самом деле знаете не намного больше, чем узнали из заголовка. Итак, недавно у меня был разговор с Jean Senellart, глобальным техническим директором и генеральным директором SYSTRAN SAS, чтобы узнать больше об их новой технологии NMT. Он был очень открыт и отвечал на все мои вопросы полезными подробностями, анекдотами и энтузиазмом. Разговор только укрепил меня в сознании, что настоящая разработка системы машинного перевода — это то, что лучше оставить экспертам, а не то, чем должны баловаться даже крупные LSP. Реальность и сложность разработки NMT отодвигают границы машинного перевода еще дальше от миража DIY.

В приведенном ниже тексте я заключил в кавычки все, что я получил непосредственно из материалов SYSTRAN или от Жана Сенелларта (JAS), чтобы было ясно, что я не интерпретирую. Я сделал небольшое редактирование, чтобы облегчить чтение и «английский язык», и добавил комментарии, выделенные курсивом в его кавычках, где это сделано.

Компания JAS разъяснила несколько моментов, касающихся общей эволюции линейки продуктов SYSTRAN.
SYSTRAN намерена сохранить все существующие конфигурации систем MT, которые у них есть, в дополнение к новым возможностям NMT. Таким образом, у них будут все следующие варианты:

  • RBMT: устаревшая технология, основанная на правилах.
  • SMT :- поколение движков на основе Moses, которое они выпустили для некоторых языковых пар за последние несколько лет.
  • SPE :- механизмы статистического постредактирования, которые были представлены в 2007 году как первая реализация, объединяющая статистические системы на основе правил и фраз.
  • NMT:- — это механизмы машинного перевода, основанные исключительно на нейронах, о которых они только что объявили.
  • NPE :- расшифровывается как «Neural Post-Editing» и является повторением того, что они сделали в SPE с использованием машинного перевода на основе фраз, но теперь с использованием нейронного машинного перевода вместо SMT для второго шага в процесс. Теперь они используют нейронную сеть для исправления и улучшения результатов движка, основанного на правилах.

Они сохранят точно такой же набор API и функций (например, поддержку пользовательского словаря) вокруг этих новых модулей NMT, чтобы эти исторические лингвистические инвестиции были полностью взаимозаменяемы в линейке продуктов. Комментарий JAS: «Исходя из моей интуиции, все еще будут ситуации, когда мы предпочтем продолжать предлагать старые решения: например, когда нам потребуется высокая пропускная способность на стандартном сервере ЦП или для языки, для которых у нас уже есть какое-то решение RBMT, или для клиентов, которые в настоящее время используют сильно настроенные движки». Тем не менее, они ожидают, что NMT будет распространяться даже в среде с небольшим объемом памяти, и даже если они ожидают, что NMT в конечном итоге преобладает, они сохранят другие варианты, доступные для их существующей клиентской базы. Инициатива NMT была сосредоточена на языках, которые были наиболее важны для их клиентов, или которые исторически были известны как сложные, или в настоящее время представляют особые проблемы, которые трудно решить с помощью устаревших решений. Так что, как и ожидалось, основное внимание было уделено EN‹›FR, EN‹›AR, EN‹›ZH, EN‹›KO, FR‹›KO. Все они уже кажутся многообещающими, особенно комбинации KO ‹› EN, FR, которые продемонстрировали самые значительные улучшения и, как ожидается, будут улучшаться по мере развития технологии.

Тем не менее, DE‹›EN — одна из самых сложных языковых пар, как сказал Жан: «Мы нашли способ справиться с морфологией, но сложное сочетание все еще остается проблематичным. Тем не менее, результаты неплохие, но для этой языковой пары у нас пока нет такого качественного скачка».

Так где же они увидели наиболее многообещающие результаты? Как сказал Жан: «Самые впечатляющие результаты, которые я видел, получены в сложных языковых парах, таких как английский-корейский, однако даже для арабского-английского или французского-английского разница в качестве между нашими устаревшими движками, онлайн-движки, и это новое поколение впечатляет.

Что я нашел наиболее впечатляющим, так это то, что перевод естественно беглый на уровне полных предложений, в то время как мы (исторически привыкли) к некоторому ощущению местной беглости, но не звучанию полностью прямо на уровне предложения. Кроме того, в некоторых случаях перевод сильно отходит от исходной структуры — и мы можем наблюдать настоящее «переписывание»».

Вот несколько примеров сравнения предложений KO›EN с NMT, SYSTRAN V8 (текущее поколение) и Google:

И вот несколько примеров того, как NMT, кажется, принимает лингвистически обоснованные решения и изменяет структуру предложения в сторону от источника, чтобы обеспечить лучший перевод.

Когда технология NMT будет выпущена в октябре, SYSTRAN планирует выпустить около 40 языковых пар (в основном европейские и основные азиатские языки, связанные с английским и французским), а еще 10 все еще находятся в разработке и будут выпущены вскоре после этого.

Как заявил JAS: «Мы будем поставлять высококачественные универсальные движки NMT, которые будут немедленно готовы к «специализации» (я делаю разницу с настройкой, (которая подразумевает обучение), потому что характер адаптации к домену клиента сильно отличается с NMT)».

Также очень важно для существующей клиентской базы то, что все старые словари, разработанные за многие годы для систем RBMT/SMT, будут полезны для систем NMT. Как подтвердил Джин: «Да — все наши существующие ресурсы используются для обучения двигателей NMT. Стоит отметить, что словари — не единственные компоненты наших устаревших модулей, которые мы повторно используем, морфологический анализ или распознавание именованных сущностей также являются ключевыми частями наших моделей». Что касается пользовательского интерфейса для новых продуктов NMT, JAS подтвердил: «Первое поколение будет полностью интегрировано в текущую инфраструктуру перевода, которая у нас есть — нам, конечно, пришлось заменить внутренние механизмы, но также и некоторые промежуточные промежуточные компоненты. Однако графический интерфейс сохраняется. Мы начали думать о следующем поколении пользовательского интерфейса, в котором будут полностью использованы новые функции этой технологии, и мы планируем выпустить его в следующем году». В официальном рекламном ролике SYSTRAN говорится следующее:

«Система SYSTRAN использует возможности NMT-модулей для изучения качественных данных, позволяя обогащать модели перевода каждый раз, когда пользователь отправляет исправление. SYSTRAN всегда стремилась предоставлять решения, адаптированные к терминологии и бизнесу своих клиентов, обучая свои механизмы на данных клиентов. Сегодня SYSTRAN предлагает специализированный движок, который постоянно обучается на основе предоставленных данных».

Жан также сообщил мне, что NMT имеет простую архитектуру, но количество вариантов настройки движков огромно, и он не нашел единого подхода, подходящего для всех языков. Варианты, которые могут иметь существенное значение, включают «тип токенизации, введение дополнительных функций, например, для управления выравниванием и т. д.…

Пока мы не нашли единой парадигмы, подходящей для всех языков, и у каждой языковой пары есть свои предпочтения. Мы можем наблюдать, что в отличие от SMT, где характер параметров был числовым и не совсем интуитивным, здесь кажется, что мы можем добиться значительных улучшений, действительно учитывая природу языковой пары, с которой мы имеем дело».

Так требуют ли эти корректирующие изменения повторного обучения или есть мгновенная возможность, подобная словарю, которая работает сразу? «Да, это классная новая функция.Мы можем вводить обратную связь с движком предложение за предложением. Он не нуждается в переобучении, мы просто скармливаем лишнее предложение и модель моментально адаптируется. Конечно, пользовательский словарь также является быстрым и простым вариантом. Способность движка NMT очень легко «специализироваться» и даже адаптироваться к одному единственному примеру очень впечатляет».

«Что интересно, так это то, что мы получаем значительное улучшение показателей для систем, которые не были настроены для метрик, по которым они оцениваются — например, вот некоторые результаты по англо-корейскому языку с использованием метрики RIBES».

«Однако наиболее удовлетворительным результатом является то, что оценка человеком всегда подтверждает результаты — например, для одной и той же языковой пары, показанной ниже, — при парном ранжировании человеком мы получили следующие результаты. (RE – это человеческий справочный перевод, NM – NMT, BI – Bing, GO – Google, NA – Naver, а V8 – наше нынешнее поколение). Он гласит: «когда система А находилась в рейтинговом сравнении с системой Б — или эталоном), сколько раз человек предпочитал ее?»

«Что интересно в перекрестном сравнении, так это то, что когда мы ранжируем двигатели по паре — когда мы вслепую показываем перевод Google и V8, мы видим, какой из них предпочитает пользователь. Однако самый интересный ряд — второй:

RE BI GO NA V8

NM 46.4 74.5 73.9 72 63.1

При сравнении вывода NMT с человеческим эталонным переводом в 46% случаев предпочтение отдается NMT (что неплохо, это означает, что примерно в одном предложении из двух человек не предпочитает эталонный HT вместо NMT!), при сравнении NMT и Google — в 74% случаев предпочтение отдается NMT и т. д.». Многие называют вычислительные требования особой проблемой. Даже с графическими процессорами обучение движка NMT — долгая задача. Как говорит Джин: «Икогда нам нужно ждать 3 недели для полного обучения, нам действительно нужно быть осторожным с рабочим процессом обучения и параллельно изучать как можно больше вариантов». «Искусственные нейронные сети обладают потрясающим потенциалом, но у них также есть ограничения, особенно для понимания редких слов. SYSTRAN смягчает эту слабость, комбинируя искусственную нейронную сеть и ее текущую технологию терминологии, которая будет питать машину и улучшать ее способность к переводу».

«Важно отметить, что для работы нового движка требуются графические процессоры (GPU). Кроме того, чтобы быстро сделать эту технологию доступной, SYSTRAN предоставит рынку готовое к использованию решение, использующее устройство (то есть аппаратное и программное обеспечение, интегрированное в единое предложение). Кроме того, общая тенденция такова, что настольные компьютеры будут интегрировать графические процессоры в ближайшем будущем, как это уже сделано в некоторых смартфонах (последний iPhone может управлять нейронными моделями). Поскольку размер [сервера] становится все меньше и меньше проблемой, NMT-движки легко смогут работать локально на корпоративном сервере».

Как упоминалось ранее, все еще есть некоторые языки, в которых оптимальная формула NMT все еще находится в стадии разработки, например. DE ‹› RU, но это все еще первые дни, и я думаю, что мы можем ожидать, что исследовательское сообщество сосредоточится на этих сложных проблемах, и в какой-то момент будут доступны хотя бы небольшие решения, даже если полных решений нет. На вопрос о реальном использовании любой из систем NMT в производстве Джин привела два ключевых примера.

«У нас есть несколько бета-пользователей, но два из них наиболее значимы. Во-первых, наша цель — перевести огромную базу данных, связанную с туризмом, с французского на английский, китайский, корейский и испанский языки. Мы намерены использовать и публиковать перевод без постредактирования. Задача заключалась в том, чтобы внедрить в модель поддержку распознавания именованных объектов, поскольку географические объекты были довольно частыми [в содержании] и немного сложными для NMT. Лучшей моделью была общая модель, а это означает, что нам даже не нужно было адаптироваться к туристической модели — и это, кажется, общее правило, в то время как в предыдущем поколении MT настройка выполняла 80% работы, для NMT, настройка интересна и полезна только для небольшой окончательной адаптации.

Второй [прецедент] — техническая документация на английском>корейском языке для LSP. Проблема заключалась в том, что доступные «внутридоменные» данные состояли всего из 170 000 сегментов, чего недостаточно для обучения полноценного движка, но, похоже, достаточно для специализации универсального движка».

Из всего, что я понял из своих бесед, SYSTRAN далеко продвинулся по пути NMT и намного опережает любого другого производителя машинного перевода с точки зрения того, что ему действительно есть что показать и продать. Они не просто пишут пафосные заметки о том, насколько крут NMT, чтобы намекнуть на осведомленность об этой технологии. Они протестировали множество систем и определили, что многие из них работают, а многие — нет. Как и во многих других инновационных вещах в МП, требуется не менее тысячи попыток, прежде чем вы начнете развивать настоящую компетентность.Они тщательно измеряют относительные улучшения качества с помощью конкурентоспособных альтернатив, что всегда является признаком того, что все становится реальным. Продукт еще не выпущен, но, основываясь на моих обсуждениях, я могу сказать, что они уже давно используются. У них есть причины для волнения, но все мы в МТ уже прошли этот путь раньше, и, как многие из нас знают, история МТ полна пустых обещаний. Как предупреждает нас персонаж Волка (ссылка NSFW, НЕ нажимайте на нее, если вас легко обидеть)в фильме Криминальное чтиво после решения несколько неразрешимой проблемы, давайте пока не будем увлекаться. Давайте послушаем реальных пользователей и посмотрим, как это работает в других сценариях использования, прежде чем праздновать.

Цель сообщества разработчиков машинного перевода всегда состояла в том, чтобы получить действительно полезный автоматический перевод в профессиональных условиях, поскольку совершенство кажется мифом. SYSTRAN серьезно расширил свои возможности в этом отношении. Они постоянно улучшают качество перевода с помощью машины. Если бы я работал с предприятием, проявляющим значительный интерес к контенту CJK ‹› E, я бы определенно присмотрелся к нему поближе, так как я также получил подтверждение от Криса Вендта из Microsoft об их собственном успехе с NMT на J ‹› содержание Е. Я с нетерпением жду новых отзывов об инициативе NMT в SYSTRAN, и если они будут держать меня в курсе, я буду делиться ими в этом блоге в будущем. Я призываю вас задавать свои вопросы, так как это отличный способ узнать и узнать правду, и Jean Senellart, похоже, готов и может поделиться своими ценными знаниями и опытом.

Первоначально опубликовано на сайте kv-emptypages.blogspot.com 1 февраля 2017 г.

Глубокое погружение в технологию нейронного машинного перевода (NMT) SYSTRAN