В настоящее время мы живем в эпоху данных — данные влияют на все, от повседневных продуктов до важных жизненных решений. Специалистам по работе с данными (например, инженерам-программистам, инженерам по машинному обучению, специалистам по обработке и анализу данных и т. д.) важно осознавать, как предвзятость может повлиять на наши данные и результаты. В этой статье мы рассмотрим неполный список распространенных предубеждений и приведем несколько примеров, иллюстрирующих возможные последствия.

Выборочная погрешность

Этот тип смещения возникает, когда в наборе данных нет репрезентативной выборки группы/групп, что искажает результаты и производительность. Примером могут служить модели компьютерного зрения для распознавания лиц. Исследователь Массачусетского технологического института Джой Буоламвини изучила несколько крупных технологических и отраслевых программ для распознавания лиц и обнаружила различия в производительности между мужчинами, женщинами и цветными людьми (вот ссылка на ее проект: GenderShades). Ее исследование выявило, что виновником является неравное представительство демографических групп.

Другой пример — Amazon, разработавший предвзятый инструмент найма против женщин (полная история на Reuters). Хотя их усилия были направлены на то, чтобы исключить человеческий фактор из процесса найма, в исходных данных, к сожалению, не было репрезентативной выборки резюме от женщин-кандидатов.

Один из способов визуально проверить достоверность представлений в наборе данных — использовать гистограммы — мы должны ожидать, что каждая категория/группа будет одинаково представлена ​​(левая гистограмма).

Если наш набор данных несбалансирован, некоторые методы решения этой проблемы:

  • Сбор дополнительных данных о недостаточно представленных группах
  • Повторная выборка из существующего набора данных
  • Дополнение данных (например, метод передискретизации синтетического меньшинства или SMOTE)
  • Выбор правильных показателей, основанных на дисбалансе набора данных (например, оценка F1)

Историческая предвзятость

Этот тип предвзятости возникает при использовании более старых данных, которые неточно отражают текущий мир. Примером может служить гендерная предвзятость в Google Translate. Этот инструмент был создан с использованием примеров языкового перевода. Исторически сложилось так, что в случае, когда перевод слова мог быть как мужского, так и женского рода, предоставлялась только одна форма. В результате Google Translate будет искажать некоторые профессии при переводе в мужскую форму (например, доктор, менеджер, профессор) по сравнению с женской формой (например, медсестра, секретарь, учитель). . Google активно работает над устранением этой предвзятости, подробнее читайте здесь.

Исследователи из ProPublica также обнаружили потенциальную историческую предвзятость в системе уголовного правосудия США. Они исследовали Профилирование управления исправительными преступниками для альтернативных санкций, или COMPAS, которое используется для определения риска рецидивизма. Их анализ выявил статистические различия в риске рецидивизма в зависимости от расы. Одной из возможных причин этого может быть то, что набор данных COMPAS содержит криминальные данные, на которые повлияла историческая дискриминация и профилирование.

Чтобы избежать исторической предвзятости, нам нужно знать контекст и историю данных, особенно когда они охватывают длительные периоды времени.

Ошибка выживания

Этот тип смещения возникает, когда набор данных чрезмерно представлен группой (группами), которые выживают / побеждают. Его можно найти в медицинских исследованиях, изучающих пациентов — данные могут поступать преимущественно от пациентов, которые выжили, а не от тех, кто не выжил. Примером может служить исследование выживаемости пациентов после травмы, проведенное Гарвардской медицинской школой и Медицинским центром Бет Исраэль Диаконисс (BIDMC) в 2010 году. Исследователи хотели дать пациентам фактор VII, который может стимулировать гемостаз, чтобы посмотреть, улучшит ли он выживаемость. . Однако от эксперимента отказались, поскольку он мог включать только пациентов, переживших первоначальную травму, и не включал тех, кто умер или был слишком болен. С полным исследованием можно ознакомиться здесь.

На самом деле, есть истории о том, как понимание предвзятости выжившего помогло союзникам выиграть Вторую мировую войну. Когда самолеты возвращались из боёв, большая часть повреждений приходилась на крылья и хвостовое оперение — изначально предполагалось добавить дополнительную броню на эти участки. Однако, признав, что у самолетов, которые не вернулись, были повреждены двигатели, вместо них была размещена дополнительная броня.

Чтобы избежать систематической ошибки, связанной с выживанием, мы должны критически относиться к нашим наборам данных и задаваться вопросом, есть ли сценарии или группы, которые отсутствуют. Знание предметной области также имеет неоценимое значение для определения области данных.

Когнитивное искажение

Этот тип предвзятости относится к ошибочным выводам или неверным суждениям исследователя/практика. Есть много способов проявить это, вот некоторые из них:

  • Эффект привязки: привязка к определенным фрагментам информации (например, первый или последний фрагмент информации о предмете, фиксация традиционными или знакомыми методами, неправильное обобщение информации на основе общих признаков и т. д.)
  • Предвзятость подтверждения: выбор, интерпретация и анализ информации для подтверждения собственной точки зрения. Люди также могут страдать от эффекта обратного эффекта, когда их точка зрения еще больше укрепляется перед лицом информации, противоречащей их точке зрения.
  • Эффект кадрирования: приход к разным выводам с одной и той же информацией на основе представления (например, восприятие большей разницы из-за контраста, выбор общего варианта/варианта по умолчанию, если есть несколько вариантов, объединение различной информации и т. д.)

Когнитивное искажение — это активная область исследований в психологии, экономике, социологии и других областях. Чтобы избежать этой предвзятости, мы должны сначала осознать ее, а затем активно оценивать наши решения на предмет предвзятости. Кроме того, работа с другими людьми, которые предлагают различные точки зрения, может смягчить предвзятость и уменьшить потенциальное туннельное видение.

Заключение

Существует много типов предубеждений, которые могут повлиять на наши данные, и мы должны приложить все усилия, чтобы устранить их. В обществе, которое все больше зависит от данных, если мы не будем осторожны, последствия могут быть серьезными.