Измерение «справедливости» в разное время

Построение показателей справедливости обычно включает разделение совокупности на подгруппы, а затем изучение различий в производительности модели между группами. Например, вы можете разделить население по полу, а затем измерить точность и количество ложных срабатываний для женщин и мужчин. Однако, когда базовые возрастные распределения подгрупп населения различаются, и ваш результат зависит от возраста, различия в показателях справедливости неизбежны, даже если нет внутреннего эффекта от членства в группе. Это верно, даже если модель «подстраивается» под возраст.

Возраст не уникален - вариации любого ключевого предиктора могут вызвать различия в показателях справедливости. Однако я думаю, что возраст заслуживает особого внимания. В Соединенных Штатах (и во многих других странах) расовые / этнические группы имеют большие различия в возрастных характеристиках, которые могут повлиять на многие модели [1]. Хотя гендерные различия в населении США в целом менее значительны, я обнаружил, что на практике возраст часто различается в зависимости от пола - например, на рынке труда в США женщины оказываются моложе мужчин, что может быть результатом образовательных различий в некоторых когортах рождения и семейные обязанности по уходу [2]. По моему опыту, по крайней мере, большинство популяций, используемых для моделирования, показывают возрастные различия между группами интересов для показателей справедливости. Возраст также является важной характеристикой, которую следует учитывать, поскольку он влияет на многие аспекты жизни людей, от дохода до состояния здоровья и поведения. Более того, возраст часто считается деликатным признаком, что иногда означает, что его игнорируют, когда его последствия могут нуждаться в тщательном рассмотрении. Даже если возраст не подходит для использования в качестве основы для принятия решения, может быть ошибкой игнорировать его во время проверки модели.

Например, предположим, что мы хотим смоделировать участие 401 (k) среди сотрудников фирмы, возможно, для создания адресных кампаний по электронной почте для увеличения числа участников. Когда мы построим модель, мы, вероятно, обнаружим, что она предсказывает более высокий уровень участия мужчин. Некоторые из них можно предсказать, основываясь только на возрасте; в составе рабочей силы мужчины в среднем старше, и возраст зависит от доступа к пенсионному плану и участия в нем [3]. Кроме того, предполагая, что средний возраст приближается к середине карьеры (30–50 лет), мы ожидаем более высокого дохода для старшей группы (мужчин) [4], что также может увеличить норму сбережений для мужчин по сравнению с женщинами.

Если мы исследуем показатели справедливости для этой модели, мы увидим различия между полами, независимо от того, включен ли в модель возраст или нет. Если модель включает возрастную характеристику (или прокси), мы, вероятно, увидим более высокие уровни ложноположительных результатов для мужчин, потому что они с большей вероятностью будут иметь промежуточную вероятность участия. Напротив, если возраст не включен, мы можем ожидать более высоких показателей ложноположительных результатов для женщин, потому что мы неявно предполагаем «средние» возрастные характеристики для всех, что означает завышение оценок для женщин. И я еще не упомянул гендерные различия в таких характеристиках, как доход, что приведет к дополнительным расхождениям. При оценке этой модели мы должны быть осторожны с тем, какие различия связаны с возрастным распределением по сравнению с гендерными эффектами и ошибками или смещениями в нашем алгоритме.

В этом посте я использую данные переписи населения США, чтобы проиллюстрировать, как на показатели справедливости могут влиять различия в возрасте населения, даже при отсутствии какого-либо прямого влияния членства в группах. За расчетами можно следить в записной книжке Jupyter (Python 3) [5]. Данные о возрасте по расе / этнической принадлежности загружаются из переписи населения США 2019 года и используются для моделирования процесса со случайными и возрастными вариациями.

Смоделированный процесс не зависит от расы / этнической принадлежности; различия между группами обусловлены только возрастом. Для простоты я показываю результаты только для 2 групп, выбирая одну относительно старую (только белые, но не латиноамериканцы или латиноамериканцы) и одну относительно молодую (латиноамериканцев или латиноамериканцев). Для данных строится модель логистической регрессии, и для этих расовых / этнических групп строятся показатели справедливости. Я демонстрирую большие различия в показателях справедливости только из-за возрастного распределения. Различия в показателях можно частично смягчить за счет возрастной стратификации.

Возрастные характеристики населения

Данные переписи доступны для прямой загрузки; этот процесс проиллюстрирован в записной книжке Jupyter [5]. Я использую данные опроса американского сообщества 2019 года по расе / этнической принадлежности (таблицы «B01001») [1]. Этот источник содержит подсчеты по возрасту, полу и расе / этнической группе для восьми групп расы / этнической принадлежности. Подсчет ведется в возрастных группах разного размера, например, возраст от 18 до 19 лет по сравнению с возрастом от 65 до 74 лет. Я комбинирую подсчет полов и строю более мелкозернистое распределение, используя сглаживание. Это позволяет мне получить приблизительное возрастное распределение по расе / этнической принадлежности с годичным разрешением. Результирующие кривые для выбранных мной подгрупп показаны ниже.

Я выбрал эти две группы, потому что они относительно «молодые» и «старые». В следующих разделах я ограничиваю население возрастом 18+. Я произвольно выбираю 5000 индивидуумов из каждого из вышеперечисленных распределений, при этом общий набор данных состоит из 10000 взрослых особей, равномерно разделенных по расовым / этническим группам.

В моей выборке средний возраст взрослого населения составляет 43 года для группы латиноамериканцев или латиноамериканцев и 53 года для одних только белых, а не для группы испаноязычных или латиноамериканцев. Эти медианные различия велики (~ 10 лет), но относительно «толстый» хвост в старшем возрасте только для белых также вносит свой вклад в различия в прогнозах и значениях показателей. Популяции со схожими медианами, но с разницей в крайних значениях, могут иметь большие различия, особенно когда возрастные эффекты нелинейны (здесь я использую простое линейное моделирование).

Моделирование и модель

Я моделирую простой бинарный процесс, который зависит от одной переменной, которая не зависит ни от возраста, ни от расы / этнической принадлежности и которая также линейно увеличивается с возрастом. Для каждого человека в моей выборке я строю вероятность как:

вероятность = -6 + x + 0,1 * возраст + (случайный шум)

Выше возраст измеряется в годах, а x имеет случайное нормальное распределение. Компонент случайного шума является случайным-нормальным, но имеет вес 0,1. Коэффициенты моделирования были выбраны таким образом, чтобы базовая ставка имела примерно 1 из 3 положительных результатов, и чтобы относительные эффекты возраста и x были аналогичными. Я использую вышеупомянутые вероятности для извлечения выборок из биномиального распределения для каждого случая, присваивая каждому человеку двоичный результат (0/1).

Затем я подгоняю свои смоделированные двоичные результаты к модели логистической регрессии, которая равна y = x + age. Поскольку мой смоделированный процесс так хорошо соответствует моей модели, моя подгонка дает входные коэффициенты; коэффициент модели для x составляет 1,029823, а коэффициент для возраста - 0,10084. Затем я использую функцию predic () для объекта sklearn.linear_model.LogisticRegression, чтобы генерировать результаты для каждого человека (фактически это 50% порог). Показатели справедливости, например количество ложноположительных результатов рассчитывается путем сравнения смоделированных и смоделированных результатов.

Результаты метрики справедливости

Я смотрю на три распространенных показателя справедливости: количество ложных срабатываний, количество ложных отрицательных результатов и точность модели. В таблице ниже показаны результаты для выбранных групп расы / этнической принадлежности:

Коэффициенты ошибок сильно различаются для этих двух популяций. Показатели ложноположительных результатов более чем в два раза выше для одной только белой группы, тогда как ложноотрицательная тенденция обращена вспять: у испаноязычных или латиноамериканских групп процент ошибок почти вдвое выше.

Хотя в этом простом примере мера точности одинакова для обеих групп, в более сложной модели, где настраивается порог принятия решения, мы можем видеть, что этот показатель варьируется. Например, пороги часто устанавливаются путем максимизации метрики f1. Это часто подталкивает порог принятия решения к более низким значениям вероятности, потенциально снижая точность для группы, которая с большей вероятностью приведет к положительным результатам.

Ожидаются различия в показателях

Различия в показателях справедливости для этих двух групп не удивительны. Исследователи показали, что расхождения в частоте ошибок (за тривиальными исключениями) неизбежны для откалиброванной модели, где базовые ставки различаются [6, 7].

Мой простой пример - модель, которая почти идеальна, что означает, что вероятность модели очень похожа на «фактическую» вероятность для отдельных случаев (для большинства приложений фактическая индивидуальная вероятность неизвестна). Эта модель по определению очень хорошо откалибрована. Хотя этот пример нереалистичен, он дает наглядное изображение принципов, изложенных в литературе. Если мы исследуем распределения вероятностей моделей по расе / этнической принадлежности, мы увидим:

В качестве примера рассмотрим ложные срабатывания. Положительные прогнозы могут быть представлены областью под частью кривых распределения вероятностей, которые лежат справа от пунктирной линии, которая представляет 50% -ный порог принятия решения. Ложноположительные результаты - это интеграл (1-вероятность), умноженный на кривые. Следовательно, поскольку кривая только для белых, а не для испаноязычных или латиноамериканцев имеет больший вес справа от пунктирной линии, особенно в регионах, вероятность которых не близка к 100%, мы ожидаем большего количества ложных срабатываний.

Трудно представить кривые, на которых мы увидим одинаковую частоту ложных срабатываний при разной общей частоте. Kleinberg et al. показывает, что это может происходить в тривиальных условиях - например, когда мы точно знаем результат каждого человека и не имеем ложных срабатываний или отрицательных результатов; это будет представлено бимодальными пиками при 0% и 100% для обеих групп [6].

В реальной модели вероятности не так точно отражали бы лежащий в основе процесс, но мы все же ожидаем, что, когда базовые ставки различаются, кривые распределения вероятностей модели не будут перекрываться. Кривые для одной популяции будут смещены больше вправо или влево по отношению к другой (ым) группе. В зависимости от местоположения порога принятия решения у нас будет больший «вес» в ложноположительной или отрицательной области графиков.

Включение возраста в показатели справедливости

Одна из возможных стратегий смягчения возрастных различий в показателях - это стратификация населения по возрасту с последующим сравнением результатов по расе / этнической принадлежности в рамках возрастных групп. Одна попытка этого решения проиллюстрирована ниже для количества ложных срабатываний:

Выше мы видим, что стратификация по возрасту помогает уменьшить расхождения в показателях. Однако некоторые различия все же можно считать значимыми. Например, для возрастной группы 40–69 лет количество ложных срабатываний только по одному Уайту на 51% выше, чем у латиноамериканцев или латиноамериканцев. Это связано с тем, что в основной группе белых, а не в группе латиноамериканцев или латиноамериканцев, больше людей ближе к верхнему пределу возрастного диапазона, в то время как группа латиноамериканцев или латиноамериканцев имеет более низкий вес.

Выбор возрастных групп для исследования может быть непростым, особенно если данные ограничены. Желательно, чтобы формы возрастного распределения были одинаковыми или плоскими в пределах возрастных сегментов. На практике этого может быть трудно достичь без использования точных уровней возраста. В США только белые, а не латиноамериканцы или латиноамериканцы имеют большой пик в возрасте около 70 лет, тогда как большинство других групп населения демонстрируют тенденции к снижению около этого значения. Иногда определенные возрастные уровни важны для процесса, который вы моделируете; например, существует характерный или предельный возраст для получения сбережений на образование, выхода на пенсию и права на медицинское страхование. Таким образом, при выборе ведер важны как бизнес-вопрос, так и формы возрастного распределения.

Хотя стратификация по возрасту может быть формой искусства, эффекты становятся очевидными даже для простых разделений, которые могут помочь вам решить, нужно ли учитывать возраст в дальнейшем. Поэтому обычно бывает целесообразно разделить показатели справедливости по возрасту, даже если у вас всего два больших сегмента.

С учетом возраста и без учета возраста

Одно заблуждение состоит в том, что если модель «корректирует» (включает) возраст, показатели справедливости также будут исправлены. Однако, поскольку возраст влияет на базовые коэффициенты, мы ожидаем различий в показателях справедливости, включая расхождения в точности и частоте ошибок, независимо от того, содержит ли модель возраст. Выше я показал расхождения даже для почти идеальной модели, учитывающей возраст.

Если я построю модель без возраста, точность ухудшится, как и ожидалось, учитывая, что эта модель является менее совершенным приближением моделируемого процесса (см. Блокнот Jupyter [5]). Без возрастной стратификации некоторые метрики между категориями расы / этнической принадлежности выглядят более похожими, в основном потому, что уровень ошибок хуже для всех. Опять же, стратификация по возрасту уменьшает различия в показателях групп.

Добавление возраста к этой модели в некоторой степени похоже на «прилив, поднимающий все лодки» - это снижает общий уровень ошибок. Однако включение возраста может сделать модель менее справедливой, поскольку групповые различия могут стать более очевидными.

Последние мысли

Причиной различий в показателях справедливости, которые кажутся связанными с расой / этнической принадлежностью, полом и т. Д., Может быть возраст. Такие «неудачи» возникают даже тогда, когда модель учитывает возраст, и даже при отсутствии независимых эффектов членства в группе.

Стратификация показателей по возрасту может частично исправить некоторые различия в показателях. Кроме того, важно учитывать механизмы, с помощью которых возраст может влиять на результаты. Связано ли влияние возраста в первую очередь с его корреляцией с другим фактором, например, доходом, образованием, состоянием здоровья, семейным положением или уровнем работы? Или имеет самостоятельный эффект? Есть ли взаимодействие с полом или расой?

Решение о том, является ли модель справедливой или несправедливой, требует понимания причин различий. Попытки исправить или настроить модель для выравнивания показателей могут иметь непредвиденные последствия, если не учитывать возрастные эффекты. Более того, может быть, а может и не быть разумным «извинять» различия в частоте ошибок между (например) расовыми / этническими группами из-за различий в возрасте. Советам по этическому контролю и заинтересованным сторонам следует принимать во внимание контекст и задавать вопросы, связанные с возрастным распределением, прежде чем выносить суждения, основанные только на показателях справедливости.

использованная литература

[1] Бюро переписи населения США, Таблицы B01001 (2019), Исследование американского сообщества.

[2] Бюджетное управление Конгресса, Факторы, влияющие на участие в рабочей силе людей в возрасте от 25 до 54 лет (2018), отчет, 7 февраля.

[3] Благотворительный фонд PEW, Доступ к пенсионному плану и участие разных поколений (2017).

[4] Бюро статистики труда Министерства труда США, Различия в доходах по возрасту и полу в 2005 г. (2006 г.), The Economics Daily.

[5]. В. Кэри, репозиторий GitHub, https://github.com/vla6/Blog_age_fairness.

[6] Дж. Клейнберг, С. Муллайнатан и М. Рагхаван, Компромиссы, присущие справедливому определению оценок риска (2017), Труды инноваций в теоретической информатике.

[7] Г. Плейс, М. Рагхаван, Ф. Ву, Дж. Клейнберг и К. К. Вайнбергер, О справедливости и калибровке (2017), Достижения в системах обработки нейронной информации, 5680–5689.