наука о данных | Статистика | Машинное обучение

Типы предубеждений в данных

Предубеждения в данных, о которых мы все должны знать, чтобы построить надежную и справедливую модель машинного обучения.

Модели машинного обучения все чаще используются для принятия решений или информирования о них. Например, Модель может повлиять на решение об одобрении кредита, проверку резюме кандидатов для подачи заявления о приеме на работу и т. д. Такие решения имеют решающее значение, и мы должны быть уверены, что наши модели не дискриминируют этническую принадлежность, пол, возраст или любые подобные факторы. . Многие модели машинного обучения часто могут содержать непреднамеренную предвзятость, которая может привести к ненадежным и несправедливым результатам. Создание и оценка хорошей модели машинного обучения требует большего, чем просто расчет показателей потерь. Перед эксплуатацией модели важно проанализировать данные обучения, а иногда и источник данных, чтобы найти ошибки.

В этой статье мы рассмотрим различные типы предубеждений, которые могут проявляться в обучающих данных.

1. Предвзятость сообщения:

Предвзятость отчетности (также известная как выборочная отчетность) имеет место, когда в наборе данных фиксируется только выборка результатов или исходов, который обычно охватывает лишь часть всех реальных данных. Люди склонны занижать всю доступную информацию.

Типы предвзятости отчетности -

  1. Предвзятость цитирования: возникает, когда ваш анализ основан на исследованиях, найденных в цитировании других исследований.
  2. Языковая предвзятость: вы игнорируете отчеты, опубликованные не на вашем родном языке.
  3. Погрешность дублирования публикаций: возникает, когда некоторым исследованиям присваивается больший вес, поскольку они опубликованы более чем в одном месте.
  4. Смещение по местоположению: происходит, когда одни исследования труднее найти, чем другие.
  5. Предвзятость публикации: имеет место, когда исследования с положительными результатами чаще публикуются, чем исследования с отрицательными результатами или без существенных результатов.
  6. Предвзятость в отчетах о результатах: возникает при выборочном сообщении определенных результатов. Например, вы сообщаете только тогда, когда компания публикует положительную прибыль в ежеквартальном отчете.
  7. Смещение запаздывания: возникает, когда для публикации некоторых исследований требуются годы.

2. Предвзятость автоматизации

Автоматизированная предвзятость — это склонность людей отдавать предпочтение результатам или предложениям, генерируемым автоматизированными системами, и игнорировать противоречивую информацию, полученную от неавтоматизированных систем, даже если она верна.

О реальном примере предвзятости автоматизации читайте здесь.

3. Предвзятость выбора

Смещение отбора имеет место, когда данные выбираются таким образом, который не отражает их реальное распределение. Это происходит потому, что при сборе данных не достигается надлежащая рандомизация.

Типы предвзятости выбора -

  1. Смещение выборки: происходит, когда рандомизация не достигается должным образом во время сбора данных.
  2. Смещение конвергенции: происходит, когда данные выбраны нерепрезентативным образом. например когда вы собираете данные, опрашивая только клиентов, которые приобрели ваш продукт, а не другую половину, ваш набор данных не представляет группу людей, которые не покупали ваш продукт.
  3. Смещение участия: происходит, когда данные нерепрезентативны из-за пробелов в участии в процессе сбора данных.

Допустим, Apple выпустила новый iPhone, а Samsung в тот же день выпустила новый Galaxy Note. Вы рассылаете опросы 1000 человек, чтобы собрать их отзывы. Теперь вместо случайного выбора ответов для анализа вы решаете выбрать первых 100 клиентов, ответивших на ваш опрос. Это приведет к предвзятости выборки, так как первые 100 клиентов с большей вероятностью проявят энтузиазм в отношении продукта и, скорее всего, оставят хорошие отзывы.

Далее, если вы решите собирать данные, опрашивая только клиентов Apple, отказавшись от клиентов Samsung, вы вызовете предвзятость конвергенции в своем наборе данных.

Наконец, вы отправляете опрос 500 клиентам Apple и 500 клиентам Samsung. 400 клиентов Apple отвечают, но только 100 клиентов Samsung отвечают. Теперь этот набор данных будет недопредставлять клиентов Samsung и будет учитываться как систематическая ошибка участия.

4. Склонность к чрезмерному обобщению

Чрезмерное обобщение происходит, когда вы предполагаете, что то, что вы видите в своем наборе данных, — это то, что вы бы увидели, если бы просмотрели любой другой набор данных, предназначенный для оценки той же информации, независимо от размера набора данных.

5. Предвзятость групповой атрибуции

Люди склонны стереотипировать целую группу только из-за действий нескольких человек в группе. Эта тенденция обобщать то, что верно для отдельных лиц, на всю группу, к которой они принадлежат, называется предвзятостью групповой атрибуции.

Типы предвзятости групповой атрибуции -

  1. Предвзятость внутри группы: возникает, когда вы отдаете предпочтение членам группы, к которой вы лично принадлежите или с которой у вас общие интересы. Для например. Менеджер, составляющий должностную инструкцию на должность специалиста по данным, считает, что подходящие кандидаты должны иметь степень магистра, потому что она есть и у него (независимо от их опыта работы).
  2. Предвзятость вне группы: возникает, когда вы создаете стереотипы об отдельных членах группы, к которой вы лично не принадлежите. Для например. Менеджер (со степенью магистра), создающий должностную инструкцию на должность специалиста по данным, считает, что соискатели, не имеющие степени магистра, не обладают достаточным опытом для этой роли.

6. Неявное смещение

Неявная предвзятость возникает, когда предположения делаются на основе личного опыта, которые не обязательно применимы в более общем плане. Люди склонны действовать на основе предубеждений и стереотипов, не намереваясь этого делать.

Например, Инженер по компьютерному зрению из Северной Америки отмечает красный цвет как опасный. Тем не менее, тот же самый красный цвет является популярным цветом в китайской культуре, который символизирует удачу, радость и счастье.

Тип неявной предвзятости -

  1. Предвзятость подтверждения или предвзятость экспериментатора: это тенденция искать информацию таким образом, чтобы подтвердить или поддержать свои предыдущие убеждения или опыт. например вы обучили модель ранжировать спортивные автомобили по их скорости, используя некоторые функции. Результаты вашей модели показывают, что Ferrari была быстрее, чем Ford. Однако несколько лет назад вы помните, как смотрели фильм, в котором Форд побеждает Феррари, и вы считаете, что Форд быстрее Ферарри, поэтому вы продолжаете тренироваться и запускать модель до тех пор, пока модель не даст вам результаты, в которые вы верите.

Спасибо за чтение. Если у вас возникнут дополнительные вопросы, свяжитесь с нами через LinkedIn.