Эта статья предполагает знание базовой статистики

Типы статистических ошибок

Предубеждения существуют в каждом аспекте нашего общества. Мы склонны искать информацию, которая соответствует тому, во что мы верим, нашим взглядам или тому, что нам нравится. Это так же естественно, как влечение к одним вещам и отсутствие влечения к другим. В профессиональной среде важно знать об этих предубеждениях, распознавать их, прежде чем приступить к столкновению.

В статистике предубеждения играют важную роль и влияют на все аспекты этой области. При его применении в таких областях, как машинное обучение и наука о данных, его эффекты огромны. Они влияют на каждый результат, а при неправильном обращении делают модели вредными.

В машинном обучении смещение относится к предположениям, сделанным моделью о функции. Это величина, на которую модель не попадает в цель, когда величина, предсказанная моделью, отличается от целевого значения по сравнению с обучающими данными. Упоминая предвзятость в этой области, важно также упомянуть дисперсию, поскольку эти две вещи обычно уравновешивают друг друга.

Дисперсия в этом параметре относится к величине, на которую изменится оценка целевой функции при представлении различных обучающих данных. Связь между предвзятостью и дисперсией в машинном обучении или науке о данных называется компромиссом между предвзятостью и дисперсией. Это тема для другой статьи. В этой статье я разберу все предубеждения, которые есть в статистике, и о которых вам следует знать.

Напомнить предвзятость

Предвзятость припоминания относится к природе воспоминания о том, что произошло совсем недавно, лучше, чем о том, что произошло в более далеком прошлом. Ученые, изучающие память, выдвинули теорию, согласно которой, когда мы думаем о событиях, которые произошли некоторое время назад, мы на самом деле вспоминаем, когда в последний раз думали о них, а не о реальных событиях. В результате точность запоминания событий, произошедших некоторое время назад, со временем снижается, и это влияет на собираемые данные.

Смещение выбора

Это смещение относится к ситуации, когда не все члены популяции имеют одинаковую вероятность быть отобранными для исследования. Это может быть из-за нескольких причин. Одним из них является предвзятость подтверждения, когда предпочтение отдается только образцам, которые склоняются к ранее существовавшему представлению о предмете. Еще одна причина — смещение выборки. Во время случайной выборки можно выбирать образцы, исходя из удобства, и предполагать, что они репрезентативны для всего населения.

Ошибка выживания

При выполнении выборки используемый метод может использовать критерии выбора членов совокупности, которые присутствуют во время исследования. Те, кто либо не присутствовал, либо не пережил процесс, не выбираются. Главный риск такого предубеждения заключается в том, что из неудач можно извлечь больше уроков, чем из побед. Те из населения, которые не выжили, содержат больше информации, чем выжившие. Поэтому следует рассматривать всех членов популяции, которые начали с одного и того же пути.

Примером этого может быть исследование членства в тренажерном зале. С этим уклоном вы можете изучить членов тренажерного зала по существующему активному списку и увидеть их прогресс в фитнесе. Чего вам будет не хватать, так это информации о тех, кто перестал быть активным. Если исследование направлено на улучшение опыта в тренажерном зале, вы не уйдете далеко, не изучив тех участников, которые перестали быть активными.

Предвзятость наблюдателя

Мы все субъективны в отношении вещей, и хотя многие люди могут наблюдать за одними и теми же событиями, все мы по-разному храним эту информацию. Мы обрабатываем эти события через наши субъективные линзы. При сборе данных путем наблюдения записываемые данные могут варьироваться от человека к человеку, поскольку измерение этих данных могло быть субъективным. Это приводит к переносу этой предвзятости на разработку модели.

Примером этого является то, что когда два наблюдателя наблюдают за медицинскими изображениями, один наблюдатель может зафиксировать аномалию, в то время как другой наблюдатель не увидит ту же аномалию и, следовательно, не зафиксирует ее. Другим примером является наблюдение за изменением цвета, считывание измерений по шкале, где один может округлить значение измерения в большую сторону, а другой наблюдатель может округлить его в меньшую сторону.

Опущено смещение переменной

При подготовке данных к обработке можно столкнуться с ситуацией, когда данные имеют большое количество переменных. Многие переменные могут оказаться неосуществимыми при создании модели. Способ справиться с этим состоит в том, чтобы уменьшить количество переменных, изучая каждую переменную и пытаясь определить влияние, которое она оказывает на результат. Эта погрешность возникает, когда опускаются переменные, которые в противном случае были бы важны для определения результата. Остальные переменные не смогут рассказать полную историю, и модель будет отключена, поскольку, скорее всего, это приведет к недообучению.

Примером этого является определение переменных, которые будут влиять на цену подержанного автомобиля. Можно опустить важную переменную, например возраст или пробег. Модель регрессии даст очень неточные результаты. Два автомобиля с одинаковыми значениями выбранных переменных будут иметь одинаковые цены, но разница в возрасте может достигать десяти лет. Один из способов противостоять этому — провести комплексный корреляционный анализ всех переменных.

Причина и следствие предвзятости

«Корреляция не означает причинно-следственной связи». Я уверен, что вы встречали эту фразу где-то в статистике. Это смещение возникает при наблюдении за переменными. Наблюдение корреляции между зависимой переменной и независимой переменной. Природа этой взаимосвязи может быть обусловлена ​​несколькими факторами, например, влиянием другой переменной, циклической взаимосвязью или быть чисто случайной. Было бы предвзятым прямо предполагать, что то, что вы наблюдаете, связано с причинно-следственной связью, а не с перечисленными выше возможными причинами.

Примером такой предвзятости может быть попытка выяснить, почему некоторые ученики получили плохие оценки. Было проведено исследование детей, у которых были репетиторы, и тех, у кого их не было. Те, у кого не было репетиторов, добились лучших результатов, чем дети, у которых были репетиторы. Поскольку репетиторы и плохие оценки коррелируют, можно сделать вывод, что это произошло из-за репетиторства, основываясь на их опыте, а не на учебе. Объяснение корреляции может заключаться в том, что выборка, в которой были наставники, с самого начала не давала хороших результатов, следовательно, возникла необходимость в дополнительном обучении.

Спонсорская предвзятость

Исследования ни в коем случае не дешевы. Профессиональные исследователи проходят строгую длительную подготовку, чтобы стать исследователями, и они тоже недешевы. По этой причине большинство научных исследований нуждаются в финансировании, которое не всегда доступно. Спонсорство или систематическая ошибка финансирования — это потенциальное искажение результатов исследования. Это может быть связано с сокрытием результатов, которые не соответствуют интересам стороны, финансирующей исследование. Другим может быть полное изменение результатов, если истинные результаты наносят ущерб спонсору.

Это одно из самых вредных предубеждений в исследованиях, поскольку оно подрывает доверие общественности к научным исследованиям. Несколько отраслей печально известны тем, что вызывают эту предвзятость. К ним относятся фармацевтические компании, автомобильные компании, компании по обработке данных, энергетические компании и многие другие.

Один из способов противостоять этому предубеждению — проводить слепые и двойные слепые исследования. При этом выборки в популяции не знают, о чем исследование в полной мере. Это в основном применимо в фармацевтической промышленности, где ни пациенты, ни исследователи не знают, какой именно режим им назначается. Это предубеждение представляет собой огромную проблему.

Заключение

Если вы изучаете или работаете над чем-то, что требует проведения статистических тестов, вы должны знать обо всех этих предубеждениях и о том, как им противостоять. Это приведет к созданию более эффективных моделей, и восполнение пробелов в знаниях в этой области всегда приветствуется.