Обновление: в сентябре 2020 года статья Алекс (Кармен) Моррисон и меня, основанная на этом исследовании, была принята на 2 020 конференции по эмпирическим методам обработки естественного языка:

Монарх, Роберт (Манро) и Алекс (Кармен) Моррисон. 2020. Обнаружение предвзятости независимых местоимений с помощью генерации частично синтетических данных. Конференция 2020 года по эмпирическим методам обработки естественного языка (EMNLP).

Смотрите видео и статью выше, чтобы увидеть версию этой статьи, прошедшую рецензирование. Только 16,7% коротких статей, представленных на EMNLP 2020, были приняты, поэтому мы благодарны рецензентам конференции за то, что они приняли нашу статью.

Оригинальная статья от ноября 2019 года ниже. Обратите внимание, что это исследование не сейчас включено в мою книгу Машинное обучение человека в цикле. Поскольку эта работа была принята как документ конференции, а также из-за других мировых событий с тех пор, я заменил ее в книге примером, связанным с реагированием на стихийные бедствия.

Я пришел к шокирующему выводу, когда писал о разнообразии для моей книги по машинному обучению: разнообразие в искусственном интеллекте - это не ваша проблема, это ее проблема.

Я имею в виду, конечно, что проблема с английским местоимением «hers». Сегодня в большинстве основных систем искусственного интеллекта существует предвзятость против «ее», и источник предвзятости - идеальная метафора предвзятости в ИИ в более широком смысле. Как вы, возможно, помните из старшей школы, «ее» - это местоимение. Каждое слово в предложении относится к одной из небольшого числа категорий: существительные, местоимения, прилагательные, глаголы, наречия и т. Д. Одним из общих строительных блоков во многих приложениях ИИ является определение правильной категории в исходном тексте.

Сегодня местоимение ее не распознается наиболее широко используемыми технологиями обработки естественного языка (NLP), включая (по алфавиту) Amazon Comprehend, Google Natural Language API и Stanford Parser. Я обнаружил это недавно, и вы можете увидеть больше в этом видео:

На видео показано, что в предложении «машина принадлежит ей» Amazon и Google классифицируют «ее» как существительное, а синтаксический анализатор Стэнфорда классифицирует «ее» как прилагательное. Они не делают той же ошибки с предложением «машина его», правильно определяя «его» как местоимение.

Все эти демонстрации бесплатны для использования в Интернете, поэтому вы можете протестировать их самостоятельно. (Если вы читаете эту статью через несколько месяцев после ее публикации, надеюсь, вы обнаружите, что эти технологии больше не вызывают таких ошибок!)

Любая технология, извлекающая информацию из текста, должна знать о местоимениях. В наших предложениях мы используем местоимения чаще, чем настоящие имена! Вот пример того, как это может выглядеть с разными местоимениями:

Если мы хотим извлечь такую ​​простую информацию, как наличие у Кэмерона автомобиля, нам сначала нужно сопоставить «Кэмерон» с правильным местоимением, а затем нам нужно сопоставить местоимение с отношением «собственность» различными способами, которые можно выразить. Если мы пропустим какое-либо местоимение, мы не сможем уловить эту информацию. Мы используем местоимения гораздо чаще, чем те сущности, к которым они относятся, так что это большой пробел.

Этот рисунок также является хорошим снимком того, где находится ИИ сегодня. Только самые последние исследования показали, что вы можете выполнять как отображение местоимений, так и отображение владения в одной системе машинного обучения, но в промышленности это почти все еще отдельные системы. Очевидно, что мы далеки от искусственного интеллекта, который может глубоко понимать языки.

Технологии также неправильно использовали местоимение «мой» в некоторых контекстах, например «машина моя». Итак, я предполагаю, что эту статью можно было бы также назвать:

Разнообразие - это не ее проблема, это моя проблема.

Поскольку проблема моя, я тоже нашел решение. Я расскажу о решении позже в этой статье, после более подробного изучения причин. Эта статья представляет собой отрывок из будущей главы моей книги Машинное обучение с участием человека в цикле, в которой даются гораздо более технические подробности о проблемах разнообразия в ИИ и их решениях.

«Ее» ошибка - это широко распространенное предубеждение, которое я обнаружил сегодня почти во всех основных библиотеках и продуктах обработки естественного языка. Я поделился этими тремя незнакомыми людьми: я руководил Amazon Comprehend, я был частью Stanford NLP Group, которая создала их парсер, и я был партнером по запуску продуктов искусственного интеллекта Google Cloud.

Почему «ее» не признается местоимением?

Эта ошибка возникает в основных технологиях по пяти причинам: алгоритмы обучаются на данных с гендерным дисбалансом; алгоритмы обучаются на узких жанрах данных; наборы данных неправильно помечены; не консультировались со специалистами в предметной области; и существуют основные лингвистические различия между местоимениями мужского и женского рода в английском языке.

Несмотря на то, что вам говорят сенсационные СМИ о «предвзятости в ИИ», «предвзятость алгоритма» редко является причиной предвзятости. Другие возможные причины, которые не привели к этим ошибкам, - это врожденная предвзятость в языке и бессознательная предвзятость людей, создающих алгоритмы.

Прежде чем причины будут рассмотрены более подробно, вам необходимо вернуться на уроки грамматики английского языка в средней школе, где вы узнали, что предложения состоят из таких составных частей, как подлежащее, глаголы и объекты. Единственная дополнительная категория, о которой вам нужно знать в этой статье, - это притяжательные (например: «его машина», «ее машина», «Кэмерон автомобиль »). Эти категории особенно важны для местоимений в английском языке, потому что они определяют, какое местоимение мы используем.

Личные местоимения единственного числа в английском языке образуют надежный образец. Каждое местоимение попадает в предложение, как в этих примерах для некоторых английских местоимений:

Когда вы говорите по-английски, вы используете все эти разные местоимения в правильных грамматических позициях в предложении, не задумываясь об этом. Например, когда вы говорите о себе, вы используете одно из «я», «я», «мое», «мое» или «я» в зависимости от того, является ли местоимение субъектом, объектом, зависимым притяжательным, независимым притяжательным, или рефлексивный.

Выделенные примеры показывают, где некоторые местоимения в английском языке удваиваются: мы используем «her» как для Объекта, так и для Зависимого Притяжательного; мы используем «его» как для Зависимого, так и для Независимого Собственника; и мы используем «вы» как для Субъекта, так и для Объекта Второго Лица. Только последний столбец, Reflexive, не перекрывается с другими столбцами. В рефлексиве есть «[Subj]», потому что правильный рефлексив зависит от предмета предложения. Это делает Reflexive очень интересным с лингвистической точки зрения, но не имеет отношения к этой статье.

Если вы раньше не задумывались об этом образце местоимений в английском языке, вы не единственный:

«Я никогда не замечал, что у него / у него и у нее / у нее разные грамматические образцы!»

- Носитель английского языка со степенью доктора лингвистики в одном из ведущих университетов мира.

Точно так же, как этот человек (который останется безымянным), если вы являетесь носителем английского языка, вы могли не осознавать, что местоимения мужского и женского рода не совпадают (грамматически) друг с другом, прежде чем читать эту статью.

Удивительная правда заключается в том, что: ваш мозг уже знал разницу! Как часто вы случайно используете в предложении «она» вместо «ее» или «его» вместо «он»? Наверное, никогда. Каждый раз, когда вы составляете новое предложение, вы всегда используете правильный столбец выше, то есть правильную грамматическую категорию местоимения. Вы можете не обращаться к кому-то с выбранным им местоимением, но ваша ошибка указана в строке выше, а вы всегда находитесь в правильном столбце.

Итак, вы действительно кодируете местоимения мужского, женского и гендерно-нейтрального рода по-разному на подсознательном уровне. Если вы говорите себе, что могли заметить разницу между ним / им и ею / ею, но никогда раньше не фокусировались на этом, то посмотрите еще раз на примеры с автомобилями Кэмерона:

Различия могут быть прямо перед вами, но вы не заметите, пока на них не укажете.

Вот 5 причин и 3 не-причины «ее» в современных технологиях:

Причина предвзятости №1: алгоритмы обучаются на данных с гендерным дисбалансом.

Все основные технологии машинного обучения обучаются на основе наборов данных, помеченных людьми. Для задачи, которую мы рассматриваем здесь, эти наборы данных создаются людьми, маркирующими слова как существительные, глаголы, местоимения и т. Д., А затем алгоритмы машинного обучения учатся на этих помеченных примерах.

Итак, источник данных имеет большое значение. Большинство примеров в популярных наборах данных взяты из новостных статей. Я проверил два самых известных набора данных на английском языке: Penn Treebank и Universal Dependencies. Местоимения мужского рода встречаются в 3 и 4 раза чаще, чем местоимения женского рода, соответственно в каждом наборе данных.

Это означает, что есть предвзятость в новостных статьях, в которых говорится больше о мужчинах, чем о женщинах, и эта предвзятость переносится на наборы данных, которые являются помеченными примерами для основных алгоритмов НЛП.

Причина предвзятости №2: алгоритмы обучаются на узких жанрах данных.

Новостные статьи - это очень узкий жанр. Они редко используют независимые притяжательные местоимения. Это означает, что вместо того, чтобы писать «ее была быстрой», журналист предпочтет «ее машина была быстрой», даже если было очевидно, что «ее» относится к машине. .

Фактически, в той части набора данных Penn Treebank, на которую я смотрел, Независимая принадлежность не появляется ни разу ни для «ее», ни для «его»!

Как часто вы говорите «это твое», «это мое», «это ее?» или «это его? " сидя за столом с людьми? Вы используете эти слова все время в своей повседневной речи, когда то, что вы имеете в виду, ясно, но эти типы местоимений почти полностью отсутствуют в новостных статьях.

Эта проблема известна как «зависимость от предметной области», потому что в этом случае наборы данных в основном ограничиваются областью новостных статей. Зависимость от предметной области - одна из самых больших проблем в машинном обучении. Это так же верно для примеров компьютерного зрения, как и для языка: если вы тренируете модель машинного обучения на узком жанре / области данных, она будет бороться с точностью за пределами этих примеров.

Причина смещения № 3: наборы данных неправильно помечены

В наборах данных Universal Dependencies всего три примера «ее», и ни один из них не помечен как независимые притяжательные местоимения. Даже если бы они были правильно помечены, алгоритмов машинного обучения могло бы оказаться недостаточно, чтобы правильно выучить местоимение «ее».

Причина предвзятости №4: не консультировались с экспертами в предметной области.

Это менее вероятная причина, но ее стоит выделить. Ошибка могла быть обнаружена раньше, если бы были проконсультированы с правильными экспертами в предметной области.

Основная задача полевых лингвистов - определить, как данный язык делит грамматику на такие категории, как субъект, объект и притяжательность. Итак, вы, вероятно, упустили различия с автомобилями Кэмерона, но обученный полевой лингвист искал бы именно это, если бы нанимался для этого.

В НЛП работает много лингвистов, но большинство из них не обучены изучать языки целостно, как полевые лингвисты. Эмили Бендер и Батья Фридман из Вашингтонского университета недавно рекомендовали практикам искусственного интеллекта перенимать больше практик полевых лингвистов, чтобы быть более прозрачными в отношении наборов данных, и я рекомендую всем последовать их примеру.

Причина предвзятости # 5: лингвистические различия между местоимениями мужского и женского рода в английском языке

Последняя причина предвзятости является совершенно произвольной: тот факт, что «ее / ее» - это различие, которое отличается от «его / его»:

В существующих наборах данных есть сотни примеров зависимо-притяжательного «его», как в «его автомобиль». Итак, системы НЛП могут узнать, что «его» - местоимение в контексте Зависимости, а затем правильно угадать, потому что это то же слово в контексте Независимости. Это невозможно для «ее / ее» с другим написанием.

Это может быть самым важным уроком, который нужно усвоить здесь: безобидные различия в человеческой речи могут стать предубеждениями в машинном обучении. Причины 1, 2, 3 и 4 могли отсутствовать, но языковое различие, которое не является предвзятым по своей природе, все же может привести к предвзятой модели машинного обучения.

Не причина предвзятости # 1: врожденная предвзятость в языке

Различные шаблоны для него / его и ее / ее в английском, скорее всего, обусловлены фонологическими причинами, которые не были результатом врожденной гендерной предвзятости. Например, вполне вероятно, что раньше было его, но двойное s было неудобно произносить и со временем потерялось. Это действительно характерно для разных языков. Если вам интересно узнать больше о местоимениях в английском языке и о том, как они изменились, я рекомендую этот недавний подкаст Lexicon Valley Джона Маквортера.

Хотя здесь это не способствовало возникновению предвзятости, это справедливый вопрос, поскольку врожденная гендерная предвзятость может иметь место в языках. Например, эквивалент слова они на испанском языке примерно переводится как онс. Когда есть группа людей нескольких или неизвестных полов, используется слово мужской. Это действительно отражает историческое гендерное неравенство, которое существует до сих пор и закодировано непосредственно в языке. Это одна из причин, по которой существует движение Latinx: чтобы заменить гендерные Latino и Latina. См. Как грамматический род влияет на представление существительных в языках с гендерной маркировкой? Хила Гонен, Йова Кеменчеджиева и Йоав Голдберг за дополнительные подходы к устранению предвзятости в языках, кодирующих гендер (немецкий и итальянский в их статье).

Однако подавляющее большинство способов, которыми языки различаются на грамматическом уровне, мало связаны с культурой обществ, говорящих на этих языках. Так обстоит дело с независимыми притяжательными местоимениями в английском языке.

Не причина предвзятости # 2: предвзятость алгоритмов

В современном машинном обучении очень мало способов предвзятости самого алгоритма. Это одна из самых вводящих в заблуждение вещей, которые вы обычно читаете об ИИ: сами алгоритмы предвзяты.

Алгоритмы принимают данные, на которых они обучаются. В самих алгоритмах нет предвзятости, за исключением (возможно) игнорирования некоторых редких данных, на которые им, вероятно, следует обратить внимание. Алгоритмы просто пытаются подогнать эти данные, чтобы сделать прогнозы, аналогичные тем, которые люди пометили в примере данных обучения.

Не причина предвзятости # 3: люди, создающие алгоритмы, закодировали свои подсознательные предубеждения в программах

Поскольку в машинном обучении больше не используются правила, запрограммированные вручную, существует не так много способов, которыми люди могут закодировать свои предубеждения в технологиях.

Единственный способ возникновения ошибки - это аннотация данных. То есть, если бы люди, создающие наборы данных, были менее последовательны в том, как они аннотировали разные роды местоимений. Здесь дело обстоит иначе. «Его» и независимый «его» последовательно аннотируются в наборах данных.

Это также не было упущено из виду в правилах аннотации. Фактически, ее встречается в двух примерах в руководстве по универсальным зависимостям и еще четыре раза в переводах с других языков (https://universaldependencies.org/u/overview/simple-syntax.html).

На последней всемирной конференции по обработке естественного языка также был проведен семинар по гендерным вопросам, который показывает, что в исследовательском сообществе НЛП не упускают из виду гендер и местоимения. Наибольшее внимание уделялось совместному исследовательскому проекту, посвященному местоимениям в английском языке. Организаторы подтвердили со мной, что они не включали одержимых в свое исследование, поэтому проблем в этой статье не возникло.

Есть много способов, которыми люди, работающие в сфере технологий, могут закодировать свои подсознательные предубеждения в приложениях, которые они создают, но в данном случае это не так.

Решение: открытые данные с правильными примерами

Нет смысла жаловаться на предвзятость ИИ, если вы не можете предложить решение.

Я решил решить проблему напрямую, используя как данные, так и новые инновации в машинном обучении. Я создал новый набор данных, снабженный множеством ее примеров, и добавил его в Коллекцию универсальных зависимостей - проект с открытым исходным кодом, который выпускает новые данные каждые шесть месяцев. Набор данных будет в следующем выпуске всего через несколько недель (ноябрь 2019 г.):



Другие местоимения

Я также заметил, что единственного числа «они» не существует ни в одном из основных наборов данных. Это происходит по тем же причинам, что и «ее», а также, вероятно, потому, что некоторые люди все еще цепляются за ошибочное убеждение, что «они» исторически было только во множественном числе.

Для примеров, которые должны быть однозначно единственными, например «тень принадлежит им», все основные технологии сегодня неправильно классифицируют «свои» как множественное число. (Возможно, что несколько человек могут отбрасывать тень, но это не должно быть интерпретацией по умолчанию!)

Итак, я также включил примеры в новый набор данных, которые являются однозначными примерами единственного числа «их», которые теперь должны позволить этим технологиям рассматривать единственную интерпретацию «их».

Совет. Когда вы видите, что кто-то расстроен тем, что «они» употребляется одновременно во множественном и единственном числе, спросите их, не расстроены ли они еще и тем, что «его» является одновременно зависимым и независимым одержимым.

Есть много других местоимений, которые на 100% действительны в разных вариантах английского языка. Я лично видел: ya / yez - различие в единственном / множественном числе для you в австралийском английском, которое особенно распространено среди носителей языков аборигенов и жителей островов Торресова пролива, которые имеют различие в единственном / множественном числе в этих языках; Yous и y’all во множественном числе от you в британском и американском английском; и e в сьерра-леонском английском, заимствованном из Sierra Leonian Krio, как гендерно-нейтральное местоимение, используемое вместо она / она / он / его и единственного числа они / они. Подобно нейтральному с гендерной точки зрения сьерра-леонскому e, многие люди предлагают использовать гендерно-нейтральный ze в английском языке. Чтобы получить более длинный (но все же не исчерпывающий) список местоимений, которые используются в английском языке, я рекомендую посмотреть Остров местоимений.

Чтобы поддержать любой другой вариант, я написал код, чтобы набор данных можно было легко расширить на другие местоимения. Я также включил «мой» в этот набор данных из-за обнаруженных мной ошибок. Хотя в слове «мой» нет явной гендерной предвзятости, системы все равно будут более точными, если будут знать, что «мое» - это местоимение, а не дыра в земле («золотая жила»). Я делаю код бесплатным и с открытым исходным кодом, и не требуются знания программирования, чтобы редактировать код и добавлять местоимения.

Легче и сложнее решать проблемы

Иногда то, что кажется сложной проблемой, можно легко исправить, и это может быть верно в отношении предвзятости в ИИ. Мне потребовался всего один день, чтобы собрать достаточно данных для обучения, чтобы любой грамматический синтаксический анализатор в будущем правильно понимал «ее» как местоимение и что «их» может быть единственного или множественного числа.

Большинство проблем с предвзятостью в ИИ одинаковы. Их бывает сложно обнаружить, но при правильной диагностике решения просты и часто сводятся к созданию правильных обучающих данных. 90% проблем, которые я видел в машинном обучении, было легко исправить. Организаторы семинара по гендерным вопросам в НЛП заявили, что большинство решений задачи с местоимениями на семинаре также были относительно простыми.

Но некоторые проблемы решить намного сложнее. Это касается наиболее популярных сегодня технологий для предварительно обученных моделей.

Гендерная предвзятость в предварительно обученных моделях, таких как BERT

Я решил только одно измерение ее проблемы с набором данных местоимений. Если приложению, использующему машинное обучение, необходимо предсказывать частоту каждого слова, проблема все равно будет. Строительные блоки машинного обучения, такие как система Google BERT, являются одним из примеров того, где может возникнуть эта проблема. Одна из основных частей архитектуры BERT пытается предсказать, какое слово может встретиться в предложении, обучаясь на больших объемах необработанных данных.

Обратной стороной этого аспекта BERT является то, что необработанная частота слов имеет значение. Нам не нужны наборы данных с равным количеством «ее» и (независимых) «его», чтобы иметь справедливую систему машинного обучения, определяющую местоимения. Однако нам, вероятно, нужно равное количество местоимений каждого типа, чтобы избежать предвзятости в предварительно обученных моделях, таких как BERT.

Я изучил предвзятость притяжательных местоимений в BERT, используя метод, адаптированный из этой недавней статьи: Количественная оценка социальных предубеждений в контекстуальных представлениях слов Кейты Курита, Нидхи Вьяс, Аюш Парик, Алан В. Блэк и Юлия Цветкова. Подводя итог методу, я измерил предвзятость, посмотрев, является ли предложение типа машина его предпочтительнее, чем машина ее в BERT:

Шаг 1. Использование нового набора данных английских местоимений, который я создал. Я извлек предположения BERT о том, какие предметы, кроме «автомобилей», наиболее вероятны. Например, BERT попросили угадать, какое будет пустое слово в 50 предложениях типа «___ принадлежит им». (Для технических специалистов я использовал выборку методом Монте-Карло для генерации нескольких элементов для каждого предложения и продолжал генерировать новые элементы, пока Гуд-Тьюринг не оценил, что появление дополнительных элементов маловероятно.)

Шаг 2. На первом этапе было получено чуть более 100 элементов. Сюда входили конкретные предметы, такие как «камера» и «мир», и абстрактные предметы, такие как «ночь» и «инстинкты». Поскольку все эти элементы были предсказаны как наиболее вероятные в данном контексте, это означает, что мы можем быть уверены, что они не являются низкочастотными элементами, которые заставят BERT давать ошибочные результаты. Я вручную удалил около 10 примеров, которые не имели смысла в предложениях или были во множественном числе, хотя существовал и единственный.

Шаг 3: со списком из 104 элементов из шага 2 я создал предложения, в которых каждый элемент используется для предсказания местоимения в предложении. Например, BERT попросили угадать, какое будет пустое слово в тысячах предложений, таких как «камера - ___», «мир - это ___», «ночь - ___» и т. Д. Я измерил, будет ли «ее» или « его »был более высоким предсказанием BERT, и с какой вероятностью.

Из 104 пунктов только один пункт, «мама», был предпочтительнее для «своего», чем «его»:

Объекты, которые являются «его» в BERT:

действие, ответ, детка, спина, лучшее, кровь, тела, тело, ящик, мальчик, бизнес, камера, машина, город, одежда, экипаж, клиенты, сделка, дилер, дверь, ящики, водители, наркотики, двигатели, все, глаз, лицо, семья, отец, первый, рыба, пол, друзья, фронт, девушка, стакан, товары, волосы, рука, глава, сердце, лошади, дом, невинность, инстинкты, остров, украшения, работа, барахло, дитя, земля, последний, нога, жизнь, нравится, много, люди, беспорядок, умы, деньги, мать, имя, ночь, один, краска, картина, родители, вечеринка, прошлое, люди, место, удовольствие, карманы, мощность, продукт, отдых, комната, тот же, запах, шериф, корабль, дерьмо, обувь, магазин, душа, улицы, прочее, солнце, меч, таблица, команда, вещи, шины, город, игрушки, следы, два, вода, путь, колеса, окна, работа, мир

Объекты, которые принадлежат ей в BERT:

Мама

Вот упорядоченная разбивка:

Согласно BERT, мир и почти все в нем «его». Выброс, «мама», вероятно, связан с тем, что BERT ошибочно применяет пол ко всему предложению, даже если «мама» может быть «его» или «ее» в равной степени в реальном мире. Это гендерное распределение всего предложения, вероятно, также относится к «кораблю», который почти «принадлежит ей»: потому что (в английском языке) мы обращаемся к кораблям с женскими местоимениями.

Самый тревожный пример - то, что «действие» почти в 70 раз более вероятно «его», чем «ее». Есть хороший шанс, что это отражает врожденную предвзятость в агентстве, приписываемую разным полам в языке, на котором обучались BERT.

Одним из факторов смещения может быть то, что «его» - это оба типа притяжений по сравнению с «его / ее», что делает «его» более частым даже в сбалансированных данных. Это может привести к тому, что «его» с большей вероятностью будет предсказано BERT, чем «ее», просто потому, что BERT явно не фиксирует, что одно и то же слово может входить в несколько лингвистических категорий. Если это так, это будет примером того, как непредвзятое языковое различие может стать предвзятым, если мы не будем осторожны с тем, как модели машинного обучения обучаются на этих данных.

Даже когда BERT запрашивается, чтобы предсказать, какие элементы с наибольшей вероятностью будут «ее» или «их», эти элементы все равно чаще предсказываются как «его». Схема выше показывает это. Это значит, что даже если мы попытаемся склонить BERT к наиболее «своим» и «своим» элементам, большую часть времени предпочтение все равно будет отдано «его».

Этот анализ BERT был моей отправной точкой для обнаруженной мной «ее» ошибки. План состоял в том, чтобы помочь таким моделям, как BERT, разработать метод, при котором элементы с наибольшим смещением можно было найти программно, а затем создать новые предложения, заменяющие местоимения, чтобы противостоять этому смещению. Этот метод представляет собой комбинацию так называемого создания примеров противоборства и увеличения объема данных. Это простые, но удивительно эффективные методы.

Но было невозможно реализовать увеличение данных, не зная, какая категория местоимений использовалась в двусмысленных примерах «его» и «ее». И было невозможно узнать, какая категория местоимений использовалась, потому что существующие технологии не могли точно идентифицировать все местоимения.

Глобальное влияние BERT

Неделю назад Google объявил, что BERT будет использоваться в 10% поисковых запросов.

Я уверен, что создатели BERT понимают проблемы. Например, одна из авторов BERT, Кристина Тутанова, даже говорила о проблеме доменной зависимости Penn Treebank в своей кандидатской диссертации 2005 года. Это проблемы, над которыми мы работаем в сообществе машинного обучения в течение некоторого времени, и не всегда есть простые ответы.

В отличие от того дня, когда мне потребовалось создать набор данных для решения проблемы определения местоимения для «ее», я думаю, что новый набор данных значительно улучшит гендерные предубеждения BERT, но это лишь один шаг к ее решению. Я еще не уверен, какая часть единственной «их» проблемы будет решена, но, вероятно, очень мало.

Различие заключается в том, что необходимость представления в наборе данных для модели машинного обучения должна быть справедливой по сравнению с более сложной задачей - сделать этот набор данных репрезентативным для машины. модель обучения, чтобы быть справедливым. То есть нам нужно только местоимения, которые должны быть хорошо представлены, чтобы модель, построенная на универсальных зависимостях, была справедливой. Но нам нужны репрезентативные данные для систем машинного обучения, таких как BERT, чтобы быть справедливыми. Более тонкие детали различия представленный / репрезентативный не важны для этой статьи, но я расскажу более подробно в моей книге, если вы хотите узнать больше.

Это сложно почти на любом другом языке

У меня нет особого опыта в отношении гендерных предубеждений в ИИ. Это обнадеживает, потому что означает, что вам не нужен опыт для решения проблем с предвзятостью в ИИ. Это не значит, что вы можете просто торопиться: я потратил больше времени на чтение о гендерной предвзятости и консультации с экспертами, чем на реализацию решения. Я признаю свою привилегию получить образование в области информатики и лингвистики и доступ к людям, создающим наиболее широко используемые технологии НЛП.

Мой опыт и основная страсть - сделать ИИ справедливым и одинаково точным для любого языка, на котором кто-то предпочитает взаимодействовать с технологиями.

Английский - привилегированный язык с большими объемами доступных данных и множеством существующих технологий. Если мы упускаем из виду одно из восьми родовых местоимений в английском языке, то в других языках мы упускаем из виду гораздо больше. Если вы используете BERT-via-a-Google-search по запросу Лучшие конференции по НЛП, первым результатом должно быть это изображение из моей докторской диссертации:

Моя докторская степень была сосредоточена на сообщениях, отправляемых в контексте здравоохранения и реагирования на стихийные бедствия на языках с ограниченными ресурсами. Спустя много лет эта проблема все еще остается нерешенной.

Система местоимений английского языка - одна из самых простых в мире. В английском языке также есть одна из простейших систем существительных, всего лишь с тремя формами: различие в единственном и множественном числе и различие в притяжательном (как у Кэмерона). Большинство языков больше похоже на чичева, где «пациент» используется 40 различных вариантов написания в предложениях, которые переводятся всего на два варианта написания на английском языке: «пациент» и «пациенты».

Ошибки для ее и их в современных технологиях отчасти объяснялись тем, что ее и их редко встречались в данных. Для большинства языков мира большинство словоформ встречаются редко. В языке могут быть десятки местоимений, а иногда и тысячи различных форм существительных. (Хотя в чичева вам не о чем беспокоиться, так это о роде местоимений: как и в большинстве языков в Африке, в чичева нет родовых местоимений.)

Таким образом, проблема с «ее» и «их» - хорошая метафора для тех видов предубеждений, с которыми мы сталкиваемся гораздо чаще в других языках. Некоторые различия будут отражать социальные предубеждения, а некоторые нет. В некоторых случаях модели машинного обучения устраняют эту предвзятость, а в других случаях модели машинного обучения усиливают эту предвзятость. Лучший способ решить проблему - тщательно создать правильные наборы данных, которые позволят алгоритмам машинного обучения понимать все вариации языка.

Большая часть работы, проводимой сегодня над наборами данных универсальных зависимостей, сосредоточена на языковом разнообразии: более 85 языков в коллекции и еще 20 добавляются в выпуске от ноября 2019 года. Это очень интересная коллекция: Universal Dependencies - это, пожалуй, самый важный проект, направленный на борьбу с предвзятостью в искусственном интеллекте сегодня.

Я обнаружил проблему с «ее» местоимением, когда искал пример для своей книги, где я утверждаю, что разнообразие - это ответственность каждого, кто строит модели машинного обучения, и что оно начинается с данных.

Я выбрал то, что должно быть одной из самых простых проблем предвзятости для решения в ИИ: наиболее хорошо изученное предубеждение (пол), наиболее хорошо изученный язык (английский), наиболее хорошо изученный способ выражения пола (местоимения) ). Я был удивлен, обнаружив, что мы не решили ее: одна из самых простых проблем, которую можно решить в ИИ, была очевидна в самых популярных технологиях, но никто не предпринял мер, чтобы исправить эту предвзятость. Моя книга всегда была сосредоточена на устранении предвзятости в данных, и теперь она будет большей частью книги, когда становится ясно, насколько ИИ далек от справедливости.

Роберт Манро

Ноябрь 2019

Эта статья была подобрана New York Times и стала их основной статьей для бизнес-раздела 11 ноября 2019 года: https://www.nytimes.com/2019/11/11/technology/ искусственный интеллект-bias.html

Дополнительные наборы данных и чтение:

Все документы, представленные на недавнем семинаре по гендерным предубеждениям в ИИ, и все профессионалы НЛП рассказывают о способах выявления и устранения предвзятости:

Труды Первого семинара по гендерным предубеждениям в обработке естественного языка. Марта Р. Коста-Хусса, Кристиан Хардмайер, Уилл Рэдфорд и Келли Вебстер (редакторы).

Из этого семинара особенно актуален этот документ о наборе данных о гендерно-неоднозначных местоимениях:

Mind the GAP: сбалансированный корпус гендерных неоднозначных местоимений.
Келли Вебстер, Марта Рекасенс, Вера Аксельрод и Джейсон Болдридж

Если вас интересует глубокое лингвистическое обсуждение конкретной структуры местоимений, посмотрите:

We Who Tweet: Pronominal Relative Clauses on Twitter. Кирби Конрод, Рэйчел Татман и Рик Кончел-Кедзёрск

Чтобы узнать больше об исключительных они, посмотрите другие статьи первого автора, Кирби Конрода.

Небинарные друзья и коллеги также рекомендовали эти статьи о местоимениях:

Руководство по небинарным местоимениям и их значению, Сассафрас Лоури

Гендерные местоимения из Университета Висконсина.

Благодарности

Спасибо Алексу Моррисону, он же Алекс У. Инн [они / они] за отзывы по всей статье и особенно за понимание негендерных местоимений!

Спасибо Кристоферу Мэннингу, главе Стэнфордской лаборатории искусственного интеллекта и группы НЛП, за то, что он указал мне на ярлыки как на источник ошибки, когда мы кратко говорили об этом!

Спасибо Кристал и Кэти за то, что разрешили мне использовать имя их ребенка Кэмерон в моих примерах!

Спасибо Эмили Бендер из Вашингтонского университета за подробный отзыв о статье!

Спасибо Келли Вебстер и Уиллу Рэдфорду, соорганизаторам Первого семинара по гендерным предубеждениям в обработке естественного языка, за отзывы и понимание этого семинара!

Все ошибки или упущения - не ее, его или их, они мои.