Различные типы смещения ML и способы его обнаружения

В этой первой части глубокого погружения в область предубеждений машинного обучения Сергей Поспелов, руководитель практики искусственного интеллекта Exadel, рассматривает, что такое предубеждения машинного обучения и как мы можем лучше обнаружить их в источнике, чтобы в конечном итоге смягчить их негативные последствия.

По мере того, как мы приближаемся к технологическому будущему, масштабы использования искусственного интеллекта в нашей повседневной жизни значительно увеличиваются. По мере роста машинного обучения и искусственного интеллекта растет и беспокойство по поводу предвзятости машинного обучения. Мы уделяем особое внимание этой теме, потому что работаем над улучшением нашего решения для распознавания лиц: CompreFace. Точность CompreFace довольно высока — 99%, как и у многих других решений для распознавания лиц. Однако система по-прежнему страдает предвзятостью, и мы осознаем свою роль в ее исправлении.

Хотя большинство предубеждений ИИ непреднамеренны, их присутствие в системах машинного обучения может иметь серьезные последствия. Углубление способов применения систем машинного обучения, искажения машинного обучения могут привести к незаконным действиям, снижению доходов или продаж и потенциально плохому обслуживанию клиентов.

Сегодня исследователи выделяют три типа предубеждений: незаконные, несправедливые и врожденные.

Незаконная предвзятость относится к моделям, нарушающим закон, например, дискриминирующим социальную группу. Несправедливое предубеждение относится к моделям со встроенным неэтичным поведением. Представьте себе модель, которая предпочитает мужчин женщинам или схожие взгляды противоположным. Врожденная предвзятость связана с шаблонами данных, которые должны идентифицировать системы машинного обучения. Все эти предубеждения могут иметь реальные последствия, поэтому решение этой проблемы должно быть частью повседневной работы команд ИИ.

Что такое предвзятость ML?

Смещение машинного обучения возникает, когда алгоритм систематически выдает смещенные результаты из-за неверных предположений в процессе машинного обучения. Формы могут быть разными, в том числе гендерная предвзятость, расовая предвзятость, дискриминация по возрасту и неравное обращение при приеме на работу. Как предвзятость проникает в процесс машинного обучения? Существует множество источников на разных этапах разработки модели. Это приводит к проблемам с решениями модели и впоследствии может негативно повлиять на системы машинного обучения, начиная с плохого качества обслуживания клиентов и заканчивая ошибочной диагностикой. Вот почему так важно изучать, оценивать и контролировать системы машинного обучения, чтобы уменьшить предвзятость, влияющую на решения.

Источники предвзятости машинного обучения

Вам может быть интересно, как модели становятся предвзятыми и где утечка. Вот несколько причин, по которым системы машинного обучения заражаются:

1. Предвзятые люди

Люди привносят множество предубеждений и бессознательных предубеждений, которые впоследствии отражаются на алгоритмах машинного обучения. Другая проблема связана с контролируемым машинным обучением. Маркируя данные, используемые для обучения модели, люди позволяют прогнозам проникать в обучающую выборку.

2. Недостаточно обучающих данных

Основная причина предвзятости машинного обучения заключается в том, что инженерные группы не собирают достаточно обучающих данных. В результате доступны только ограниченные данные, что приводит к систематическим ошибкам.

3. Трудности устранения предвзятости моделей машинного обучения

Если вы хотите сделать свои данные достоверными, удаление конфиденциальных атрибутов не приведет к успеху. Ряд исследований показал, что это не избавляет модели от предвзятости.

4. Недобросовестные данные

Есть несколько причин, по которым трудно предотвратить предвзятость в моделях машинного обучения. Следует учитывать, что в процессе построения модели принимается множество решений, и они, вероятно, привносят предвзятость, которая может быть неочевидна сразу.

Выявление предвзятости машинного обучения

Учитывая, что источники предубеждений широко распространены, вполне естественно, что мы можем привыкнуть принимать эти различия, часто подсознательно. Однако, как показывают следующие примеры, мы можем надеяться обнаружить и исправить предубеждения в машинном обучении, став более внимательными.

1. Алгоритмическая гендерная дискриминация

Первый пример, который мы рассмотрим, — это алгоритм COMPAS. Он используется судами для прогнозирования вероятности повторного совершения ответчиком преступления. Система основана на ответах на 137 вопросов анкеты. Основываясь на моделировании и данных, результаты показали, что чернокожие подвергаются более высокому риску повторного совершения преступления. Белые, с другой стороны, подвергались меньшему риску. Этот случай — один из хорошо известных примеров предвзятости ML, и он оказывает пагубное влияние на общество.

2. Рекламный алгоритм

Другой пример — алгоритм рекламы Facebook, который позволял рекламодателям нацеливать рекламу на основе расы, религии и пола. Объявления о вакансиях секретарей или медсестер предлагались в первую очередь женщинам, а объявления водителей такси — мужчинам, в основном представителям меньшинств. Алгоритм предполагал, что реклама недвижимости будет генерировать больше

интерес, если показан белым. Впоследствии они не предлагались другим группам меньшинств. Причина скрывалась в схеме обучения системы машинного обучения. Платформа Facebook создала шаблон из входных данных, и эти данные отражали существующее социальное неравенство.

3. Алгоритм найма

В 2015 году команда Amazon обнаружила, что ее механизм найма не любит женщин. Их алгоритм машинного обучения был основан на резюме, отправленном за последние годы. Инструмент рекрутинга компании использовал машинное обучение для оценки соискателей из одного

до пяти звезд. Поскольку большинство заявителей были мужчинами, система отдавала предпочтение мужчинам, а не женщинам. Система Amazon узнала, что предпочтение отдается кандидатам-мужчинам, и оштрафовала резюме, содержащее слово «женщины».

Это всего лишь несколько иллюстраций неблагоприятных результатов предвзятости МО и того, как оно вызывает проблемы, воспроизводя предубеждения инженеров, которые их разработали, и общества, в котором они существуют.

Важные идеи по предотвращению предвзятости машинного обучения

Чтобы избежать предвзятости ML, нам нужно приложить сознательные усилия. Есть несколько способов предотвратить или обнаружить это:

  • Регулярно обновляйте обучающие данные, чтобы модель могла изучать новые шаблоны данных.
  • Избегайте использования данных, которые могут привести к различным искажениям, например, этнические характеристики, пол и социально-экономическое положение.
  • Убедитесь, что в вашей модели нет ложных предположений или предубеждений; собирать данные из нескольких источников и объединять их для создания набора обучающих данных
  • Проверяйте и проверяйте производительность модели перед ее развертыванием в реальных условиях.
  • Убедитесь, что команды машинного обучения осведомлены о критических функциях, базовых данных и любых вариациях.
  • Убедитесь, что ваш тренировочный набор максимально разнообразен и представляет все население.
  • Выявляйте предвзятость машинного обучения на ранней стадии, выполняя тесты предвзятости.
  • Выберите подходящую модель обучения для решения проблемы

Это лишь несколько ключевых моментов, связанных с устранением предвзятости в машинном обучении.