Пару недель назад в Дублине, Ирландия, прошла одна из крупнейших ежегодных конференций по НЛП - Саммит машинного перевода 2019, на которой основное внимание уделяется исследованиям и приложениям в машинном переводе (МП), сложной проблеме в рамках НЛП. Неделя была заполнена десятками лекций, семинаров и руководств исследователями и практиками машинного перевода, и в целом я подумал, что конференция получилась фантастической.

Этот пост резюмирует мои впечатления от конференции, а также служит своего рода свалкой данных для моих заметок по конкретным выступлениям, руководствам и статьям :) Я делаю их общедоступными на тот случай, если другие сочтут их полезным резюме.

Примечание: мой опыт участия в конференции явно зависит от сессий, которые мне довелось посетить (в основном исследовательские), но, чтобы получить более широкий обзор конференции, ознакомьтесь с программой здесь.

Этот пост является частью I и охватывает дни с 1 по 3 конференции, а часть II охватывает дни 4 и 5. Первые пару дней были посвящены учебным курсам и семинарам, а последний 3 дня были на доклады и плакаты.

Сводка и общие показы

  • Поскольку традиционная роль переводчиков продолжает смещаться в сторону редактирования результатов машинного перевода (постредактирование; PE), а не перевода с нуля, возникает значительный интерес к пониманию всего, что связано с PE: влияние PE на общее качество и стиль перевода; производительность постредакторов, режимы работы и взаимодействие с МП; и как этот переход к полиэтилену влияет на производство на реальных предприятиях.
  • Хорошо, что мы видим, что исследования рекуррентных нейронных сетей (RNN) и моделей машинного перевода на основе статистического машинного перевода (SMT) продолжаются - хотя модели Transformer теперь являются архитектурой MT à la mode, другие подходы по-прежнему превосходят Преобразователи в конкретных ситуациях (например, SMT для перевода коротких сегментов) или, возможно, более интуитивно понятны.
  • Мне понравилась работа, в которой использовалась информация, отличная от текста. Плакат о мультимодальном переводе, в котором в качестве входных данных для моделей перевода использовались как изображения, так и текст; разговор о сквозном переводе речи в текст; плакат, описывающий отслеживание взаимодействия постредактора с клавиатурой и мышью; и проект, который отслеживал движение глаз при взаимодействии пользователей с MT.
  • Было довольно много упоминаний о контекстно-зависимом машинном переводе и явлениях на уровне дискурса - наши стандартные модели работают на чисто уровне предложений, что игнорирует тот факт, что большая часть текста существует вокруг другого текста в абзацах, разделах и документах. Подходы, которые явно используют контекстную информацию, показывают очень многообещающие результаты.
  • Моим любимым докладом, вероятно, был доклад Арианны Бизацца «Понимание синтаксической и семантической передачи в моделях многоязычных нейронных сетей» - это невероятно круто, что даже можно одновременно обучать наши стандартные модели НЛП с несколькими языками . Интерпретируемость нейронной сети всегда интересна, но с лингвистической точки зрения она особенно интересна в многоязычных моделях, кросс-языковых представлениях, которые эти модели могут захватывать.
  • Моим любимым плакатом был ... ну, это галстук. Во-первых, это «Управление уровнем чтения вывода машинного перевода» от Маркизио и его коллег. Я был приятно удивлен, что сложность вывода машинного перевода может можно так эффективно контролировать, вставив простой флаг в исходное предложение. Во-вторых, есть книга "Translator2Vec: понимание и представление людей, занимающихся постредакторами" от Góis & Martins. Конечно, я являюсь поклонником x2vec для всех x, но было особенно здорово видеть изображения рабочих схем переводчиков, полученные из их последовательности взаимодействий с клавиатурой, мышью и текстом во время постредактирования.

День 1 конференции - Урок «Неоправданная эффективность нейронных моделей при декодировании языков»

Автор: KantanMT

Это было полудневное руководство, представленное KantanMT (провайдером платформы машинного перевода). Это было более практическое занятие, которое последовало за некоторыми экспериментами по реализации нейронного машинного перевода (NMT) между KantanMT и eBay в прошлом году. Некоторые основные моменты:

  • Сначала клиенту требовались конкретные доказательства того, что модели нейронного перевода превосходят модели статистического перевода. Контролируемые эксперименты показали, что модели NMT на самом деле имеют более низкие баллы BLEU, но оценщики-носители языка значительно предпочитают модели NMT. Показатель BLEU, в частности, может быть объединен с NMT, поскольку NMT может генерировать менее буквальный беглый вывод, который все еще неплох, но не обязательно точно соответствует ссылочным переводам на уровне n-граммов.
  • Следующая серия экспериментов заключалась в сравнении производительности между 3 доминирующими нейронными архитектурами для моделирования трансляции - RNN (рекуррентные нейронные сети), CNN (сверточные нейронные сети; более распространены в компьютерном зрении) и TNN (нейронные сети-трансформеры; или просто трансформаторы). Сравнение было обширным - по автоматическим показателям (BLEU, TER, METEOR), оценкам людей и техническим аспектам, таким как время обучения, интеграция и простота адаптации / повторного обучения. В результате, как и следовало ожидать, Трансформеры в целом лучше.
  • Помимо проверки того, что у вас достаточно пар слов / предложений для начала построения моделей NMT, следует также проверить уникальное количество слов, которое в идеале должно быть как можно большим (например, ›100k).
  • Переход фреймворков глубокого обучения с Theano на OpenNMT для обучения моделей NMT привел к огромному увеличению их скорости.
  • Если количество внутренних данных, доступных для адаптации предметной области, невелико, они обнаружили, что простое добавление дополнительных копий этих данных во время адаптации может быть полезным.

День 2 конференции - Учебное пособие по «Кривой глубокого обучения для постредактирования»

Автор: Welocalize

Это руководство было фактически представлено нами, несколькими людьми из инженерной группы MT / NLP в Welocalize - так что у меня нет большого количества заметок по нему :) Вкратце, цель учебного курса заключалась в том, чтобы представить отраслевую перспективу о постредактировании - после моего введения в текущее состояние прикладных исследований машинного перевода коллеги обсудили проблемы реализации NMT, плюсы и минусы различных провайдеров машинного перевода и, конечно же, то, как все в конечном итоге влияет на процесс постредактирования.

Конференция, день 3 - Обсуждения

«Краудсорсинг и сопутствующие инструменты для мониторинга качества в PEMT»

Монис

Вступительный доклад конференции был также посвящен пост-редактированию (PEMT = пост-редактированный машинный перевод) спикера Хелены Мониз из Unbabel, довольно модного стартапа MT. В этом выступлении основное внимание уделялось человеческим, а не техническим аспектам, и обсуждалось, как Unbabel управляет своими переводчиками-людьми - не существует единого ярлыка «Я переводчик», каждый переводчик помещен в различные категории в зависимости от навыков, опыта и предметной области. . Это означает, что когда появляется новая задача, они могут быстро найти переводчика, наиболее подходящего для этой работы.

В настоящее время выпускается новое поколение переводчиков, которые хорошо осведомлены и привыкли работать вместе с моделями машинного обучения. Это означает, что атмосфера становится более совместной и все менее враждебной битвой «ИИ против переводчиков».

Довольно крутой частью выступления была демонстрация приложения для голосовых сообщений, которое позволяет пользователям записывать и отправлять сообщения на одном языке, которые затем автоматически переводятся и синтезируются на предпочтительный язык получателей. Я определенно вижу, что это станет популярным, когда техника будет развиваться дальше. На данный момент в этом процессе есть ручной компонент: люди исправляют ошибки перевода, если автоматический перевод выглядит низкого качества. Синтезированный голос на данный момент является общим и еще не отражает идиосинкразические речевые характеристики говорящих, хотя в настоящее время он разрабатывается.

«Надежное представление документов для CLIR в настройках с низким уровнем ресурсов»

Ярмохаммади и др. [здесь бумага]

Поиск информации (IR) - это получение нужных фрагментов информации по запросу и межъязычный поиск информации (CLIR) делает это в многоязычных настройках. Таким образом, запрос пользователя написан на языке, отличном от языка документов в базе данных, и задача состоит в том, чтобы сделать машинный перевод изящно и получить соответствующие документы, несмотря на языковой барьер. В качестве примера использования представьте, что репортер новостей запрашивает новостные ленты на иностранном языке, чтобы развить свой рассказ.

Основные требования к такой системе CLIR:

  • Устойчивость к ошибкам MT. Соответствующие документы должны возвращаться по каждому запросу, даже при наличии ошибок машинного перевода.
  • Устойчивость к ошибкам ASR. Если база данных документов содержит аудиофайлы речи, их необходимо сначала преобразовать в текст с помощью автоматического распознавания речи (ASR), и система также должна быть устойчивой к любым возникающим ошибкам. на этом этапе.
  • Устойчивость к языкам с ограниченными ресурсами. Авторы исследовали CLIR в контексте трех языков с ограниченными ресурсами (= небольшой объем обучающих данных): сомали, суахили и тагалог. Документы на этих трех языках можно получить с помощью запросов на английском языке.

В центре внимания этой статьи был подход к переводу документов в CLIR (т. Е. Сомалийские, суахили и тагальские документы сначала переводятся на английский), но в других документах эта задача решалась наоборот, когда вы переводили запрос на целевой язык. . Проблема в том, что запросы могут быть довольно короткими, поэтому вам будет сложно надежно найти соответствующие документы. Этот подход используется как базовый.

Ввод задачи - это запросы на английском языке, а на выходе - извлеченные документы, относящиеся к запросу. «Основная истина» - это присвоенные людьми рейтинги релевантности документов по набору запросов. Сложная часть - это ASR и MT: как только у вас есть переведенные документы, вычисление оценки релевантности и ранжирование от запроса к документу обрабатываются Elastic Search и Okapi.

Основная часть работы сосредоточена на оценке различных способов представления документов и их влиянии на общую производительность CLIR. Три разных «взгляда» на документы были:

  • N-лучшее декодирование. Для текстовых документов МП генерирует N лучших переводов каждого предложения (для разных значений N). Для речевых документов ASR генерирует N-лучший список для каждого сегмента, а MT-декодер производит M-наилучшее преобразование каждого из них, в результате чего получается матрица NxM. Использование всей этой матрицы или выборки из нее не сильно влияет на производительность.
  • Перевод пакета фраз (BOP). Учитывая исходный текст, система SMT на основе фраз генерирует все возможные фразы для перевода (без языковых моделей; поэтому не выполняется поиск полного декодирования) - все это варианты перевода объединяются в набор фраз. Такой подход придает больше лексического разнообразия представлению документа, например вы можете получить 10 возможных переводов определенного слова. Для речевых документов ASR снова является первым шагом к началу работы с текстом.
  • И их сочетание. Вы также можете просто использовать оба представления, N-оптимальные переводы и перевод BOP: index для обоих из них, и позволить функции поиска оценивать документы в соответствии с тем, насколько хорошо пользовательский запрос соответствует любому из представлений.

Оказывается, что расширение более стандартного подхода N-лучших списков с лексическим разнообразием представления набора фраз дает лучший результат и хорошо справляется с задачей CLIR для всех трех изученных языков с низким уровнем ресурсов. Кажется, что наличие как можно большего количества информации для каждого документа и максимально возможное языковое разнообразие дает наилучшие результаты, несмотря на вероятность того, что более подробные представления документов более подвержены ошибкам.

«Улучшенный преобразователь для сквозного преобразования речи в текст»

Ди Ганги и др. [здесь бумага]

Ранее системы речевого перевода в реальном времени основывались на последовательном соединении отдельных систем - модели распознавания голоса для генерации текста и отдельной модели машинного перевода для перевода транскрибированного текста. В этой работе представлен более изящный подход, который адаптирует архитектуру Transformer для обеспечения возможности сквозного преобразования речи в текст.

В этой статье авторы исследуют 3 явления:

  • Использование преобразователя для этой задачи. Предыдущие модели на основе RNN для сквозного преобразования речи в текст были довольно медленными для обучения и требовали больших вычислений. Здесь они хотели использовать Transformer не потому, что он необычный и новый, а потому, что он гораздо более распараллеливаемый и наверняка будет обучаться быстрее, чем подходы на основе LSTM.
  • Обработка речевых данных с помощью 2D-внимания. Они хотели использовать 2D-внимание на этапе обработки спектрограммы (спектрограмма - это представление аудиофайла, например, образец речи, который содержит частотный след через некоторое время). Использование 2D-внимания поможет сохранить свойства спектрограммы с течением времени, позволяя модели использовать 2D-зависимости вместо того, чтобы собирать вместе всю зависящую от времени информацию.
  • Добавление внимания к себе с учетом местных особенностей. Когда образец входной речи очень длинный, они заметили, что механизм самовнимания Трансформера будет пытаться сосредоточиться на всей длине последовательности. Это не очень полезно, поскольку в результате модели действительно сложно улавливать краткосрочные зависимости. Они вводят локально смещенное самовнимание, чтобы стимулировать механизм внимания сосредоточиться ближе к региону, над которым он в настоящее время работает, - они сделали это, добавив штраф, если внимание тоже отвлекается. далеко от диагонали матрицы.

Их модель на основе трансформатора действительно обучается намного быстрее, чем модели LSTM, и дает примерно такую ​​же производительность. Интересные результаты заключаются в том, что добавление штрафа локального внимания действительно помогает модели в этой задаче преобразования речи в текст, а также приводит к более быстрой сходимости во время обучения. Добавление 2D-внимания также приводит к усилению BLEU. Наконец, авторы обнаружили, что увеличение размера модели значительно повышает производительность, предполагая, что модели, которые они используют, все еще слишком малы (этот конкретный результат, похоже, в настоящее время является обычным для работы с машинным обучением).

День 3 - Плакаты основной конференции

Остаток дня был посвящен плакатам. Некоторые плакаты, которые мне особенно понравились, были:

«Каково влияние необработанного МП на японских пользователей Word: предварительные результаты исследования удобства использования с использованием отслеживания взгляда»

Автор: Arenas et al. [здесь бумага]

В этой работе изучается, как пользователи относятся к машинно-переведенному контенту в используемом ими программном обеспечении - в частности, японским участникам была представлена ​​либо выпущенная, переведенная людьми японская версия Microsoft Word, либо машинно-переведенная японская версия. Пользователям было предложено выполнить некоторые задачи в одной из версий Word. Помимо сравнения выполнения задач, эффективности и удовлетворенности пользователей, отслеживались движения их глаз как мера затраченных когнитивных усилий.

Результаты показывают, что показатели выполнения задач и эффективности у говорящих на японском языке немного выше для версии Word, переведенной человеком, но не значительно. Однако их самооценка удовлетворенности была значительно выше, что свидетельствует о том, что работа с необработанным МП, возможно, менее приятна по сравнению с работой с текстом, переведенным человеком.

«Translator2Vec: понимание и представление редакторов-людей»

пользователя Góis & Martins. [здесь бумага]

Разные переводчики по-разному подходят к задаче постредактирования. Почему бы не фиксировать действия, которые выполняют разные переводчики во время работы, и не проверять шаблоны и кластеры в этих данных? Это поможет определить разные стили постредактирования и, возможно, решить, какие из них более эффективны. Данные о последовательности действий были собраны от постредакторов, включая операции редактирования нажатия клавиш, действия мыши, время ожидания и изменения фактического текста MT. Собранный набор данных довольно велик - последовательности действий из 66 тысяч сеансов постредактирования, проведенных более чем 300 людьми.

Авторы показывают, что последовательности действий достаточно информативны и могут использоваться для точной идентификации конкретных постредакторов, лучше, чем если бы вы использовали только текстовую информацию до PE и после PE. Вы также можете выполнить некоторое уменьшение размерности данных последовательности действий с помощью tSNE и построить более низкоразмерное векторное представление в двух измерениях - это позволяет вам видеть кластеры сессий PE и наблюдать, что каждый пост-редактор имеет свой собственный уникальный стиль. Эти представления редактора также являются очень эффективными предсказателями времени постредактирования. К сожалению, не было большого количества интуитивно понятных различий в работе стилей между кластерами, но это все равно действительно хороший результат.

Что касается приложений, вы также можете измерить сходство между постредакторами таким образом или использовать это как часть инструмента обучения постредактора - например, чтобы определить, связан ли данный стиль работы с низкой производительностью, или чтобы обнаружить если ваш сеанс не находится рядом с каким-либо кластером, это может означать, что ваш рабочий процесс сильно отличается от других переводчиков. Вот красивый рисунок из их статьи, показывающий графики tSNE англо-немецких и англо-французских сессий PE:

Это показывает, насколько журналы сеанса постредактирования позволяют прогнозировать личность постредакторов.

«Использование знаний машинного перевода на основе правил для моделей NMT с ограниченными ресурсами»

Торрегроса и др. [здесь бумага]

Нейронный машинный перевод может дать удивительно хорошие результаты, но он очень сильно зависит от наличия достаточного количества обучающих данных. Языковые пары с ограниченными ресурсами по определению не имеют большого количества параллельных данных, и в этом случае использование элементов старой школы, рукописного машинного перевода на основе правил (RBMT) может быть очень полезным.

В этой работе проводились эксперименты с различными подходами к использованию лингвистической информации, содержащейся в системах RMBT, с целью улучшения моделей NMT в условиях ограниченных ресурсов. Ключевым результатом является то, что обогащение функций с помощью морфологической информации из основанного на правилах машинного перевода в форме тегов частей речи (POS), тегов зависимостей и информации синтаксического дерева было эффективным для повышения производительности при добавлении в системы NMT. Интересно, что наблюдаемая производительность повышения была аналогична повышению от использования токенизации вложенных слов.

«Морфологическая нейронная пре- и пост-обработка для славянских языков»

Бернардинелло [здесь статья]

Славянские языки (русский, чешский, польский, болгарский и др.) Морфологически богаты - порядок слов достаточно гибкий, а функция слов обозначена десятками различных языковых форм. Вот несколько примеров чешских интонаций из их статьи:

В результате системы NMT для славянских языков сталкиваются с проблемами, которых нет для латинских или германских языков. В этой статье славянский исходный текст обрабатывается путем добавления дополнительного этапа предварительной обработки, на котором словоизмененные слова раскладываются на их лингвистические компоненты. С другой стороны, когда целевой язык - славянский, аналогичные этапы обработки происходят после перевода (постобработка). Обработка работает путем настройки процесса токенизации таким образом, чтобы лучше обрабатывать флексию - сначала, используя онлайн-ресурсы, автор строит модели морфо для каждого славянского языка, которые представляют собой карты морфологических категорий на основе миллионов примеров. Затем они используются для управления процессом токенизации.

Посмотрите Часть II моих заметок о конференции здесь, в которой рассматриваются дни 4 и 5 конференции.