Машинный перевод с трудом справляется с гендерной принадлежностью людей. Вместо этого он отражает гендерную предвзятость из-за огромного количества тренировочных предложений. Но переобучение машинного перевода, требовательного к вычислениям, с нуля неэффективно, а устранение незначительных дисбалансов в огромных наборах данных может оказаться невозможным.

Вместо этого мы решили попытаться смягчить предвзятое поведение,адаптировавсуществующие модели к новым данным, обойдя обе проблемы. Прочтите краткое изложение того, как мы это сделали и что мы обнаружили, или ознакомьтесь с нашей Документом ACL 2020, « Уменьшение гендерной предвзятости в нейронном машинном переводе как проблема адаптации предметной области»,для получения подробной информации. .

Перевод (человеческого) пола

Немецкий, испанский, иврит, арабский и русский — это лишь немногие из множества языков с богатым грамматическим родом. Для этих языков предложение может быть правильным только в том случае, если его слова имеют постоянный грамматический род.

Для некоторых слов, таких как «стол», род фиксирован. Однако для слов, относящихся к человеку, грамматический род может зависеть от пола человека. Подобные слова, относящиеся к человеку, существуют в английском языке, часто в качестве профессий — например, «актриса» как женская форма слова «актер».

В языках с более богатым грамматическим родом, чем в английском, гораздо больше слов, относящихся к человеку, имеют гендерную принадлежность. Для этих языков машинный перевод должен правильно и последовательно переводить человеческий род. И, как было установлено в последние годы, в частности, Становским и др., машинный перевод не справляется с этой задачей.

Вместо этого машинный перевод работает таким образом, что это очень похоже на гендерные стереотипы. Врачи и инженеры, как правило, по умолчанию переводятся в мужскую форму, в то время как медсестры и секретари, как правило, переводятся в женскую форму.

Почему машинный перевод использует гендерные стереотипы?

Системы машинного перевода обучаются переводить с одного языка на другой, «показывая» им пары предложений и их переводы. Для хорошей производительности могут потребоваться миллионы примеров.

Когда мы смотрим на слова, имеющие гендерную принадлежность в целевом языке, такие как «доктор», мы обнаруживаем, что они часто склоняются к примерам с формой мужского или женского рода.

Например, в немецких учебных примерах гораздо больше примеров врачей-мужчин. Это может быть связано с тем, что в наборе данных больше врачей-мужчин, или это может быть связано с соглашением использовать мужской род по умолчанию, если нет другого контекста, как в предложении «Врачи согласны с этим».

Таким образом, при переводе новых предложений «наилучшее предположение» может привести к тому, что по умолчанию будет использоваться этот стереотип.

Когда происходит стереотипный перевод?

Интересно, что этот тип гендерных стереотипов посредством перевода происходит не только для двусмысленных предложений, в которых невозможно определить пол.

Это также происходит, когда в переводимом предложении есть местоимение, как в этом немецком примере, которое непоследовательно: «Доктор» переводится с мужским родом, а «ее работа» с правильным женским родом. [1]

Собственная схема Google для устранения гендерной предвзятости в машинном переводе состоит в том, чтобы предоставить две версии перевода, одну с использованием мужской формы и одну с использованием женской формы.

Это имеет большой смысл при переводе с языка без богатого грамматического рода, такого как турецкий, на язык, где пол обычно указывается, например английский.

Но при переводе примера, где пол можно разумно вывести из исходного предложения, как этот пример с английского на испанский, кажется, что должен быть лучший способ.

Подчеркнем, что речь идет не только о ленивой зависимости от стереотипов, когда нет никакой другой информации. Речь идет о ленивой опоре на стереотипы, которые противоречат ясному смыслу исходного предложения.

Это проблема?

Что ж, в лучшем случае такое поведение немного раздражает или расстраивает пользователей, что уже является плохим началом. Но рассмотрите варианты использования машинного перевода: составление электронного письма или сообщения на новом языке или чтение переведенной веб-страницы.

Перевод со стереотипами искажает слова и авторов, которых переводят.

Как мы измеряем этот эффект?

Набор тестов WinoMT — это набор тестов для оценки этой проблемы при переводе с английского языка на языки с более богатым грамматическим родом. Он содержит около 4000 предложений, каждое из которых состоит из двух слов, относящихся к человеку, и одного местоимения.

Основная цель — повысить точность определения пола для профессии, связанной с местоимением, хотя в статье мы также исследуем более подробные результаты, такие как различная производительность в предложениях, помеченных мужским и женским родами.

Стоит иметь в виду, что профессии выбираются таким образом, чтобы перевод с гендерно-стереотипным перегибом для каждого предложения достигал 50% точности.

Наш подход: адаптация существующей модели машинного перевода к созданному вручную набору данных

Модели машинного перевода требуют много времени, вычислительной мощности и данных для хорошей работы. Мы хотим избежать необходимости начинать с нуля каждый раз, когда замечаем новые примеры плохого поведения.

Но их можно очень быстро адаптировать к новому набору примеров предложений. Это широко используемый способ получить систему, которая хорошо работает в определенной «области», такой как научные статьи или документы от какого-либо отдельного клиента.

Наша идея состояла в том, чтобы определить «область» предложений, в которой было равное количество мужских и женских сущностей. [2]

Для этого мы определяем очень простой набор из менее чем 400 предложений, следуя шаблону:

[профессия] завершила [свою|ее] работу

Мы выбираем профессии из ранее опубликованного списка. Каждая профессия появляется дважды с мужским и женским наклонением в гендерном языке.

Некоторые из этих профессий могут появиться в тестовых предложениях WinoMT, поэтому мы также создаем набор без этих перекрывающихся профессий, вместо этого смешивая предложения на основе прилагательных:

[прилагательное] [мужчина|женщина] закончил [его|ее] работу

Результаты здесь для адаптации к этому непересекающемуся «рукотворному» набору, у которого меньше возможностей для запоминания профессий.

Почему бы не сбалансировать исходные предложения?

В то время как люди пытались «контрфактически увеличить» или пытались таким образом сбалансировать английский текст, сделать то же самое для грамматически гендерного языка может быть очень сложно, потому что может потребоваться корректировка очень многих слов, чтобы они оставались грамматически правильными.

Тем не менее, мы также сравниваем адаптацию к форме «сбалансированного» текста из исходного обучающего набора. Во-первых, его во много раз медленнее создавать и медленнее адаптировать.

И экспериментально мы не находим, что адаптация к «естественному» контрфактическому набору значительно улучшает гендерную точность WinoMT по сравнению с базовой моделью.

«Катастрофическое забывание» во время адаптации: гендерная точность улучшается, но общая способность к переводу падает.

Казалось бы, неизбежный компромисс адаптации нейронной сети заключается в том, что модель учится делать новые вещи, но теряет способность делать то, что могла делать раньше.

В этом случае то, что он мог сделать раньше, — это перевести широкий диапазон предложений на целевой язык. Качество машинного перевода измеряется баллом BLEU, где 0 BLEU — это полная ерунда, а 100 BLEU — перевод, который полностью соответствует человеческому переводу.

Проверяя балл BLEU на стандартных тестовых наборах для адаптированных моделей, мы видим свидетельство забывания в уменьшенных баллах BLEU при сильной адаптации к модели ручной работы.

Один из способов остановить это — схема регуляризации, такая как Elastic Weight Consolidation. Это препятствует слишком большим изменениям нейронной сети, но вводит компромисс. Он меньше забывает, но и учится меньше.

Другой способ, который мы предлагаем, состоит в том, чтобы рассматривать это как проблему исправления ошибок.

Идея: сначала адаптируйте, а затем исправляйте гендерные ошибки

Оригинальная модель может быть хороша при переводе большого количества предложений. Но мы знаем, что он борется с референтными для человека гендерными терминами.

Адаптированная модель может быть узкоспециализированной, чтобы хорошо переводить эти термины. Но большинство слов не относятся к гендерным терминам, относящимся к человеку.

Наша идея состоит в том, чтобы сгенерировать перевод первого прохода с исходной моделью, а затем второй перевод с адаптированной моделью. Но что особенно важно, адаптированная модель может изменять слова в исходном переводе только на другие формы того же слова с другим грамматическим родом.

Например, в английском языке модели может быть разрешено менять «его», «ее» и «их» как притяжательные местоимения разного пола. Оно может меняться между «актер» и «актриса» как два гендерных варианта этого слова. Однако изменить слово «его» на «актер» было бы запрещено. И слова «the», «memorized» и «script» останутся без изменений, потому что в английском языке у них нет альтернативных родовых форм.

Пошаговое руководство для этого процесса со ссылками на учетную запись диска со скриптами и данными можно найти на нашем github.

Гораздо больше слов имеют различные гендерные формы для интересующих нас грамматически гендерных языков, таких как немецкий. Для их сбора можно использовать существующие инструменты, такие как spaCy.

Насколько хорошо это работает?

Мы считаем, что это работает очень хорошо! Мы практически не видим снижения BLEU на стандартных наборах тестов перевода. На WinoMT точность определения пола по-прежнему значительно улучшается. На самом деле, поскольку нам не нужно беспокоиться о компромиссе, связанном с забыванием, мы можем повысить точность даже больше, чем на графиках выше.

При переводе с английского на испанский и с английского на иврит точность определения пола колеблется от 50 % — очень близко к случайному угадыванию в двоичном наборе тестов WinoMT — до середины 60-х годов. При переводе с английского на немецкий, нашей лучшей начальной модели, точность WinoMT повышается с 60,1% до более чем 80%.

В целом мы видим повышение относительной точности примерно на 30% по сравнению с исходным уровнем, практически без изменений в производительности для предложений без гендерных терминов.

Что дальше?

Это исследование дало очень многообещающие результаты. Мы использовали очень небольшое количество легко подготавливаемых данных адаптации, чтобы сфокусировать существующую модель машинного перевода на гендерных терминах и, возможно, смягчить ранее существовавшие гендерные предубеждения.

С точки зрения применения, в этой статье остаются открытыми два конкретных направления:

  • Один путь связан с типом гендерных перегибов, который мы рассматривали. Человеческий пол не является бинарным, и все больше людей предпочитают использовать местоимения и другие термины, не относящиеся к мужскому/женскому роду по умолчанию. Однако во многих языках есть только бинарные грамматические гендерные соглашения для слов, относящихся к человеку. Можем ли мы разработать основу для гибко определяемых новых гендерных перегибов, чтобы расширить и оценить наш подход?
  • Другой путь связан с тем, насколько мы можем быть уверены в поле любого конкретного человека, упомянутого в отдельном предложении. Как мы отмечали ранее, можно придумать сценарии, в которых правдоподобна любая комбинация связей местоимение-сущность. Но что, если мы точно знаем, что, например, врач — женщина, а медсестра — мужчина. Может ли описанный здесь подход использовать эту информацию с какой-то гендерной меткой?

В последующем документе Нейронный машинный перевод не переводит гендерную кореференцию правильно, если вы этого не сделаете, мы показываем, что ответ на оба эти вопроса положительный — при некоторых обстоятельствах. Рецензия на эту статью тоже готова!

[1] Любой пример человеческого языка может иметь двусмысленность. В этом примере вы можете возразить, что врач может заканчивать чужую работу. Для целей данной статьи мы сосредоточимся на объяснении, которое не требует внешнего контекста. В последующем документе мы исследуем возможность контролируемой смены пола, что устраняет эту двусмысленность.

[2] В этой статье использование только мужского и женского грамматического рода позволило нам напрямую использовать WinoMT и сравнить с опубликованными результатами — в нашей дополнительной статье мы расширяем идею и набор тестов для более сложного сценария введения небинарных грамматические склонения.