В мае 2020 года я опубликовал проект, в котором использовал spaCy и BERT для смены пола в испанских предложениях (un profesor viejo ‹-› una profesora vieja). Это было полезно для оценки предвзятости моделей или увеличения данных обучения, но это было медленным и зависело от жестко запрограммированных переменных в моем скрипте. В то время я предположил, что следующим шагом будет использование модели нейронной сети (seq2seq), часто используемой для перевода или обобщения текста.

Помимо предвзятости и данных, я собрал еще несколько причин использовать контрфакты на любом языке:

  • обучать чат-ботов одинаковому набору сообщений, в которых к пользователю или чат-боту обращаются как к мужчине, женщине или нейтрально по полу
  • изменять многомерные свойства (такие как диалект или политические взгляды) для проверки модерации контента или других сложных моделей
  • замаскировать или "стандартизировать" общение в системах "человек в контуре"

Обновление испанского контрфактического сценария

Модель seq2seq построена на двух нейронных моделях: кодировщике и декодере. Посмотрев на Fairseq и ​​несколько руководств по seq2seq, я перешел к SimpleTransformers.

Мои исходные данные для обучения были взяты из набора данных MuchoCine с использованием BETO -mBERT для кодирования и декодирования, но все входные данные, похоже, возвращали несвязанный текст обзора фильма.
Для следующей попытки я создал большой гендерный флип. набор данных (около 7000 строк) из испанского OSCAR corpus. Используя BETO как для кодировщика, так и для декодера, я затем обучил его на 100 эпох. Готовая модель работает особенно хорошо, за исключением того, что в настоящее время она имеет ограничение на длину в выходных последовательностях.

Вы можете увидеть записные книжки обучение и базовое использование для модели, загруженной в HuggingFace.

Первоначальное исследование seq2seq на арабском языке

Гендерные факторы в существительных, местоимениях, прилагательных и глаголах в современном стандартном арабском языке. Существительные и прилагательные часто кодируются как женские, добавляя ﺔ («тах») в конце. Есть много слов, которые не так легко изменить, а также глаголы, правила которых я никогда не узнал на вводных занятиях. Иногда меняется начало (يعمل / تعمل), иногда конец (كتب / كتبت).

Изучая эту часть, я заметил, что Google Translate может использовать свои собственные тесты перевода - здесь «он бежит» и «она бежит» генерируют совершенно разные предложения, потому что он управляет [гонкой], а она руководит / управляет [бизнесом].

Я обновил приложение-словарь эпохи Python2, чтобы воссоздать их базу данных SQL арабских существительных и глаголов. К сожалению, атрибут женский отсутствует в большинстве слов и редко имеет смысл. Эта работа все еще продолжается.

Мы также могли бы использовать подход seq2seq для создания арабских контрафактов на нескольких диалектах.

Теории о контрфактах: Политика

Это было сложно - не потому, что на американском английском не хватает политических твитов, а потому, что в целом сложнее ответить, как должно выглядеть контрфактическое высказывание. Рассмотрим этот текст:

«Республиканцы в Конгрессе используют нечеткую математику, чтобы оправдать свою схему бурения нефтяных скважин в Арктическом национальном заповеднике дикой природы и уничтожения одного из последних нетронутых ландшафтов на Земле», - сказал Уайден.

Один очевидный аргумент в пользу бурения в Арктическом национальном заповеднике дикой природы (ANWR). Должен ли это быть какой-то политический контраргумент (нашей нации нужно больше энергии, производимой внутри страны), или он должен быть как можно более семантически подобным? Вот мой первый взгляд на написанное человеком контрфактическое высказывание:

«Конгрессмены [демократы] используют [__], чтобы оправдать [_blocking_] бурение в Арктическом национальном заповеднике дикой природы и разрушить [_ нашу экономику_]», - сказал [alt name].

Чтобы создать это противоречие, я перевернул имена республиканцев / демократов, определил основную тему (углубление в ANWR) и заменил фрагменты текста между глаголами.
Другой вариант - сохранить текст «Республиканцы в Конгрессе» и ANWR. , но попробуйте "перевернуть" настроение, например:

«Республиканцы в Конгрессе используют [_экономику_], чтобы оправдать свой [_план_] бурения нефтяных скважин в Арктическом национальном заповеднике дикой природы [__], одном из последних [__] на Земле», "- сказал [alt name].

Оба контрафакта вызывают риск «перевода» цитат - у нас должен быть план, чтобы избежать результатов, которые приписывают кому-то генерируемые цитаты.

Обновление: мне интересно, является ли это скорее проблемой «переноса стиля», чем контрфактической проблемой? Доступны и другие текстовые ресурсы, которые поддерживают это, но не контролируются напрямую.

Исследовать

Я хотел бы написать официальную исследовательскую статью об этом подходе seq2seq и о том, насколько он полезен в увеличении данных и обнаружении предвзятости. Я пока не знаю, будут ли в этом проекте политические, диалектные или другие противоречия. Впереди еще много работы. В любом случае, свяжитесь с нами.

Обновления?

Эта статья была опубликована в январе 2021 года. Чтобы узнать обо всех обновлениях, касающихся изменения пола в НЛП, см. Этот файл Readme на GitHub.