Представление задачи по переводу WAT19 мьянма-английский от Facebook AI

В последнее время машинный перевод (MT) оказался очень успешным для языковых пар с высоким ресурсом. Тем не менее, это все еще открытый вопрос о том, как заставить его хорошо работать для подавляющего большинства языковых пар с низким уровнем ресурсов. Например, языковая пара английский-мьянма богата, но также сильно отличается от английского. Этот язык также нигде не похож на другие языки с высокими ресурсами и, следовательно, не выигрывает от многоязычного обучения. Кроме того, имеется очень мало параллельных данных, а одноязычные данные на мьянманском языке трудно собрать из-за множественных кодировок языка.

Конкурс Facebook AI MyanmarEnglish 2019

Facebook AI Research приняла участие в конкурсе 2019 года по мьянманскому английскому языку, организованном Workshop on Asian Translation. Этот документ представляет собой описание их заявки, которая получила наивысшую человеческую оценку и балл BLEU на конкурсе.

Их система занимает первое место в обоих направлениях согласно оценке человека и BLEU, с выигрышем более чем на 8 баллов BLEU по сравнению со второй лучшей системой.В частности,он исследует методы, одноязычные данные для улучшения обобщения, включая самообучение, обратный перевод и их комбинацию. Во-первых, они используют обратный перевод для упорядочения и адаптации к тестовой области. Во-вторых, они используют самообучение как способ более эффективного использования одноязычных данных на стороне источника в предметной области. В-третьих, учитывая взаимодополняющий характер этих двух подходов, мы последовательно комбинировали их. Наконец, они улучшают декодирование, используя переупорядочение и объединение зашумленных каналов.

Они дополнительно улучшают результаты, используя повторное ранжирование и объединение зашумленных каналов, и демонстрируют, что эти методы могут значительно улучшить не только систему, обученную на дополнительных одноязычных данных, но даже базовую систему, обученную исключительно на предоставленном небольшом параллельном наборе данных.

Возможное использование и эффекты

Как работа, получившая наилучшие результаты в конкурсе машинного перевода на мьянманско-английский язык, она заслуживает внимания. Подход представляет собой сочетание нескольких методов, обеспечивающих хорошую производительность без использования дополнительных одноязычных данных.

Работа может быть дополнительно улучшена за счет использования зашумленных ресурсов параллельных данных, улучшения комбинации различных источников дополнительных данных, а также разработки более эффективных подходов к использованию одноязычных данных на стороне источника.

Подробнее: Заявка на перевод с Мьянмы на английский язык

Спасибо, что читаете, комментируйте, делитесь и давайте общаться в Twitter, LinkedIn и Facebook. Чтобы быть в курсе последних и интересных научных статей, подпишитесь на нашу еженедельную рассылку. Не забудьте поставить 👏, если вам понравилась эта статья. Ваше здоровье!