В течение следующих нескольких лет глубокое обучение будет внедрено в нашу повседневную жизнь в больших и малых делах, от беспилотных автомобилей (это произойдет?!) до медицинской диагностики и, ну, в общем, всевозможных вещей. Однако по мере того, как мы идем по этому пути, нам действительно нужно обдумать, что именно говорят нам алгоритмы. И причина этого в том, что информация, которую мы получаем, по определению будет необъективной в той или иной форме.

Хорошо, термин предвзятый немного громоздкий, но я использую его осознанно. Я мог бы иметь в виду, что эти алгоритмы используются для мошенничества, но я этого не делаю. Что я действительно имею в виду — что на самом деле еще хуже — так это то, что при оценке риска математически невозможно быть справедливым в отношении нескольких групп!

(Прежде чем мы зайдем слишком далеко, Оценка риска — это вероятность того, что вы обладаете какой-либо чертой. Например, вероятность того, что вы футбольный болельщик, или у вас глаукома, или может ограбить банк — каждый из них будет оценкой риска для этой черты)

Итак, что означает справедливо в данном контексте и почему нас это волнует? Что ж, допустим, вы продаете футбольные майки — вы бы хотели, чтобы зритель видел рекламу этих футболок, если зритель интересуется футболом, независимо от того, мужчина это или женщина, верно? Если рекламная платформа говорит что-то вроде «э-э, это женщина, мы не будем показывать ей рекламу вашей футболки», то это потенциальный доход, не так ли? И это не справедливо по отношению к вам!

Суть здесь в том, что если мы хотим, чтобы наши алгоритмы были справедливыми, мы должны убедиться, что они откалиброваны и имеют баланс положительных и отрицательных сторон. .

  1. Калибровка. Если вы определяете вероятность наличия у группы признака как X, то X% группы должны иметь признак. Справедливость проявляется, когда вы следите за тем, чтобы проценты были одинаковыми для отдельных групп (например, «Независимо от пола, пока уровень интереса одинаков, мы показываем человеку объявление").
  • Баланс положительных качеств: средний показатель риска для положительных качеств (людей с определенной чертой) в каждой группе. должно быть таким же. Справедливость возникает потому, что если средние положительные оценки риска различаются для групп (например, мужчин и женщин), то более вероятно, что алгоритм выберет людей из одной из групп («мы будем показывать рекламу ваших футболок только мужчинам").
  • Баланс минусов: средний показатель риска для минусов (люди без > признак) в каждой группе должен быть одинаковым. Справедливость здесь играет роль точно так же, как и в случае с балансом положительных моментов выше.

Легко, верно? Просто убедитесь, что мы соответствуем трем критериям выше, и мы готовы к работе, верно?
Что ж, неправильно.
В захватывающей статье (•) Kleinberg et al. показать, что математически невозможно удовлетворить всем трем указанным выше ограничениям и что что бы вы ни делали, у вас будут компромиссы.

Это много плотной математики, поэтому я не буду ее включать в этот пост, но результат глубоко проливает свет (и болезненный), что идеальная справедливость — как определено выше — невозможна. Как говорят авторы

Предположим, мы хотим определить риск того, что человек является носителем болезни X, и предположим, что среди женщин больше, чем среди мужчин. Тогда наши результаты подразумевают, что в любом тесте, предназначенном для оценки вероятности того, что кто-то является носителем Х, должно выполняться по крайней мере одно из следующих нежелательных свойств:
(а) оценки вероятности теста систематически искажаются вверх или вниз для хотя бы один пол; или
(b) тест присваивает более высокую оценку среднего риска здоровым людям (не носителям) одного пола, чем другого; или
(c ) тест присваивает более высокую среднюю оценку риска носителям заболевания одного пола, чем другого.
Дело в том, что этот компромисс между (а), (б) и (в) не относится к медицине; это просто факт об оценках риска, когда базовые ставки различаются между двумя группами.

Чтобы вернуться к тому, с чего мы начали, алгоритмы по определению не будут идеально честными. Просто реализовать их с предположением, что «фишки упадут туда, куда они могут попасть», в лучшем случае наивно, а в худшем — со злым умыслом. Мы должны учитывать контекст при разработке этих алгоритмов!
Не менее важно, что мы должны раскрывать компромиссы, которые были достигнуты при реализации. Раскрытие информации обеспечит прозрачность на определенном уровне. Одной прозрачности недостаточно, но, по крайней мере, это начало…

(Обратите внимание, что все вышеперечисленное до того, как мы перейдем к таким вещам, как предвзятость в данных, культурные артефакты, ошибки выборки и так далее. Дополнительную информацию об этом см. в этом превосходном резюме на Природа)

(•) Неотъемлемые компромиссы в справедливом определении показателей риска» — Кляйнберг и др.

(Эта статья также есть в моем блоге)