Я искал фотографии инженеров в Google Images. Из первых 30 изображений: 24 представляли только мужчин, 3 — только женщин и 1 — группу разработчиков.

Я почти уверен, что доля женщин среди разработчиков намного выше 10%. Тем не менее, мой браузер был крайне склонен к представлению мужчин. Я пробовал с другими запросами, такими как учитель дошкольного образования, учитель колледжа, медсестра… все они были гендерно предвзятыми.

Это не является большим сюрпризом, модели информационного поиска изучают предвзятость набора данных, на котором они обучаются. Что удивительно, так это то, что со временем это не становится лучше, а наоборот. Согласно недавнему исследованию Университета Кеплера, новейшие модели НЛП (обработка естественного языка) (такие как BERT) усиливают гендерные предубеждения.

Модели НЛП — это то, что они едят

За последние 2 года появились все более эффективные алгоритмы обработки естественного языка (NLP) (например, BERT или BLEURT). Компьютеры могут лучше, чем когда-либо, изучать языки и их значение. Дайте модели текст, она подытожит ее для вас и ответит на любые вопросы. Современные модели НЛП могут многое сказать о мире, в котором мы живем. А этот мир полон предубеждений.

Когда вы обучаете модель NLP, как и любую модель ML, вы вводите в нее текстовые данные. Например, высокие отношения возникают между {медицинской сестрой-врачом — больницей}. Таким образом, используя эту модель, если вы выполните поиск по слову «больница», вы получите результаты врачей и медсестер.

Проблема в том, что данные, которые мы подаем, необъективны. Например, в тексте о «врачах» в основном будут использоваться слова, относящиеся к мужчинам (он, мужчина, парень…). Таким образом, обученная модель узнает, что существует более высокая корреляция между «врачом» и «мужчиной».

Документы имеют пол, и модели узнают их.

Какого пола мой документ?

Для любого документа можно рассчитать величину представленного в нем пола. Величина — это измеряемая степень присутствия мужских и женских понятий в документе. Существуют разные техники. Термин Частота (TF) является одним из них. С помощью этого метода вы определяете набор слов, связанных с одним из полов, женским или мужским. Например, женщина = {она, женщина, женщина, беременная…}, мужчина = {он, мужчина, сэр, отец…}.

Метод TF заключается в подсчете частоты набора терминов, обозначающих каждый пол, как есть:

Для документа d вы получите величину женского и мужского пола в документе. Затем мы можем вычислить общую величину как вычитание мужской и женской величины. Этот способ расчета рассматривает пол как значение со знаком. Если положительный, то документ в основном о мужчинах, а если отрицательный, то в основном о женщинах.

Модели позднего НЛП усугубляют гендерные предубеждения

Исследование Университета Кеплера показало, что чем более сложной и эффективной была модель НЛП, тем больше она будет усиливать гендерную предвзятость.

Они взяли набор запросов, сделанных в Bing, и предоставили ответы. Точно так же, как вы можете классифицировать пол документа, вы также можете классифицировать пол запроса. Таким образом, команда получает набор мужских, женских, негендерных и множественных гендерных запросов.

Они создали модели информационного поиска, основанные на различных методах встраивания (BM25, KNMR, MatchPyramid, BERT…). Для одного и того же набора запросов они сравнили гендерную предвзятость, вызванную различными техниками встраивания НЛП.

Это было довольно удивительно, все ответы на запросы были смещены в сторону мужчин, а последние модели, такие как BERT, увеличили смещение на 40%.

Как мы можем уменьшить гендерную предвзятость в системах НЛП

«Легкий» способ борьбы с этим — использовать более сбалансированные наборы данных. Техника замены пола является решением, она состоит в замене местоимения в предложении для создания более согласованных данных для женского пола. Например, «он врач» будет заменен на «она врач» в обучающем наборе данных.

Эта тема становится быстрорастущей областью исследований. Google недавно выпустил свой метод уменьшения гендерной предвзятости в переводе: Масштабируемый подход к уменьшению гендерной предвзятости (апрель 2020 г.). С 2018 года они работали над уменьшением гендерной предвзятости для нейтральных языков, таких как английский, но изо всех сил пытались масштабировать его на другие языки. Насколько мне известно, эта техника применяется к переводу, а не к просмотру.

ИИ — это инструмент, и как инженер ИИ мы всегда должны учитывать, кто будет использовать наши системы и с какой целью. У нас есть роль в создании технологий, которые работают для многих, а не для немногих.

Продолжайте менять мир по одному набору данных за раз 😉