Давайте разберемся с алгоритмической предвзятостью

Каково было бы использовать беспристрастный алгоритм?

Беспристрастное приложение для оценки страховки может назначать покрытие и стоимость совершенно случайным образом, не имея особого отношения к хорошим водителям с чистыми записями. Или, возможно, распознавание лиц откроет ваш ноутбук для всех, без предубеждения в пользу владельцев или пользователей учетной записи или, действительно, без предпочтения лиц, а не рук или ног.

Глупые примеры, конечно, но помните - сама цель машинного обучения - кодировать статистические погрешности. Алгоритм без пристрастности вряд ли вообще будет алгоритмом.

Но, конечно, в разговоре и слишком часто в формальном дискурсе мы используем термин предвзятость несколько случайно, чтобы обозначить несправедливые предпочтения или предрассудки, с которыми мы не согласны.

Таким образом, наша задача не столько в том, чтобы устранить предвзятость в алгоритмах, сколько в том, чтобы определить наши предпочтения достаточно четко, чтобы их можно было заранее указать менеджерами проектов, дизайнерами или специалистами по данным, а затем протестировать их командами QA.

В качестве хорошей практики я предлагаю, чтобы спецификации для программных продуктов и услуг (включая проекты машинного обучения) включали как показатели успеха, так и нецелевые. Любой, кто работал со мной на протяжении многих лет, признает важность, которую я придаю последнему. Нецели - это определения того, что выходит за рамки, и помогают установить границы для работы, которую необходимо выполнить. Например, система генерации текста может по замыслу выводить только английский язык, поэтому создание других языков не относится к целям.

Я все чаще предлагаю, чтобы спецификации для проектов машинного обучения, в частности, также включали отрицательные показатели успеха. Поначалу их сложно изложить, но, например, они могут включать в себя то, что система не будет иметь обнаруживаемой предвзятости в отношении выявленных меньшинств. Первоначальное определение этих намерений имеет преимущества: для всех, от инженеров и специалистов по обработке данных до разработчиков и QA, это привлекает внимание к необходимости в наборах данных, алгоритмах и даже UX для соответствия этому стандарту.

Я вижу слишком много проектов с плохо определенными критериями успеха, мало нецелевых, о которых стоит говорить, и редко какие-либо негативные меры. В результате предвзятость (в случайном смысле), которая могла быть спланирована, часто остается незамеченной.

Некоторые люди не одобряют называть непредвзятость негативной целью, поскольку возражение больше связано с заданным тоном, чем с практическим подтекстом. Конечно, желание уменьшить предубеждения - это неплохо.

Но для ясности: для меня отрицательная цель представляет собой решающий контраст с положительными: формулировка намеренно указывает на то, что система не должна делать. Разработка и тестирование специально для выявления таких ошибок требует как нового мышления, так и часто разные техники.

Короче говоря, мы не можем отказаться от предвзятости в машинном обучении, но ради хорошей работы мы можем (и должны быть) явными в отношении предпочтений, которые мы стремимся оптимизировать, и предрассудков, которые мы хотим устранить.

Дональд Фармер

Стратегия TreeHive

Давайте разберемся с алгоритмической предвзятостью

Вопросы по теме