Важная концепция для создания точных моделей машинного обучения
Таблица содержания
Вступление
Представьте себе это.
Вы баллотируетесь в президенты и хотите быть голосом большинства.
Итак, вы отправляетесь в движение защитников окружающей среды и спрашиваете пять человек, что они думают о мясной промышленности, и все пятеро единодушно говорят, что производство мяса должно быть запрещено. Вы сразу же убеждаете, что все хотят запретить производство мяса, чтобы спасти Землю.
Вы делаете это заголовком своей кампании и проповедуете его днем и ночью, думая, что это секрет победы в вашей кампании.
Через 4 месяца вы наберете менее 1% голосов.
Вашей идиократии можно было бы легко избежать, если бы вы знали о предвзятости.
Предвзятость важна не только в статистике и машинном обучении, но и в других областях, таких как философия, психология и бизнес.
Как правило, предвзятость определяется как «предубеждение в пользу или против одного предмета, человека или группы по сравнению с другим, обычно считающееся несправедливым».
Предвзятость - это плохо. Мы хотим минимизировать предвзятость, насколько это возможно.
Что такое статистическая погрешность?
В этой статье мы сосредоточимся на статистической погрешности. Статистическая ошибка - это, по сути, случай, когда модель или статистика не репрезентативны для населения, и есть несколько источников систематической ошибки, которые вызывают это.
Типы статистической погрешности
К наиболее частым источникам предвзятости относятся:
- Критерий отбора
- Предвзятость в отношении выживаемости
- Пропуск переменной смещения
- Отзыв смещения
- Предвзятость наблюдателя
- Предвзятость в финансировании
Критерий отбора
Систематическая ошибка отбора - это феномен отбора людей, групп или данных для анализа таким образом, что надлежащая рандомизация не достигается, что в конечном итоге приводит к выборке, не репрезентативной для всей совокупности. [1]
В рамках систематической ошибки выбора существует несколько типов систематической ошибки выбора:
- Систематическая ошибка выборки: относится к смещенной выборке, вызванной неслучайной выборкой.
В качестве примера представьте, что в комнате находится 10 человек, и вы спрашиваете, предпочитают ли они виноград или бананы. Если бы вы опросили только трех женщин и пришли к выводу, что большинству людей нравится виноград, вы бы продемонстрировали систематическую ошибку выборки.
- Смещение временного интервала: смещение, вызванное намеренным указанием определенного диапазона времени для подтверждения желаемого вывода. Например, вывод о среднем количестве твитов в час из выборки, взятой в часы пик (9–12 утра), является примером смещения временного интервала.
- Ошибка восприимчивости: включает систематическую ошибку клинической восприимчивости, протопатическую ошибку и ошибку показаний, которые связаны с идеей потенциального смешения причины, следствия и корреляции.
- Предвзятость подтверждения: тенденция отдавать предпочтение информации, подтверждающей убеждения.
Предвзятость в отношении выживаемости
Феномен, при котором в анализ включаются или исключаются только те, кто «пережил» длительный процесс, таким образом создавая предвзятую выборку.
Прекрасный пример, приведенный Шринивасаном Чандрасекаром, заключается в следующем:
«Мы записываемся в тренажерный зал и посещаем его на несколько дней. Мы видим одни и те же лица многих людей, которые находятся в хорошей форме, мотивированы и тренируются каждый день, когда ходим в спортзал. Через несколько дней мы впадаем в депрессию, почему не можем придерживаться своего графика и мотивации больше недели, в отличие от большинства людей, которых мы видели в тренажерном зале. Чего мы не заметили, так это того, что многие люди, записавшиеся в тренажерный зал, также перестали приходить в тренажерный зал буквально через неделю, и мы их не видели ».
Пропуск переменной смещения
Это предвзятость, связанная с отсутствием в модели соответствующих переменных. В машинном обучении удаление релевантных и / или слишком большого количества переменных приводит к неполноценной модели.
Примером этого является покупка автомобиля на основе марки и модели автомобиля, а не пробега. Представьте себе Porsche 911 turbo 2020 года за 10 000 долларов - звучит как кража, пока вы не обнаружите, что на нем 400 000 миль.
Отзыв смещения
Предвзятость вспоминания - это тип информационного предубеждения, при котором участники не «вспоминают» предыдущие события, воспоминания или детали.
Это также связано с предвзятостью к новизне, когда мы лучше запоминаем вещи, которые произошли совсем недавно.
Предвзятость наблюдателя
Это предвзятость, которая проистекает из субъективной точки зрения наблюдателей и того, как они оценивают субъективные критерии или записывают субъективную информацию.
Предвзятость в финансировании
Также известная как предвзятость спонсорства, это тенденция искажать исследование или результаты исследования, чтобы поддержать финансового спонсора.
Больше статей, подобных этой, можно найти на https://blog.datatron.com/.
Спасибо за прочтение!
Если вам нравится моя работа и вы хотите поддержать меня, подпишитесь на мою рассылку здесь!
Ресурсы
Объяснение типов статистических смещений (с примерами) - часть 1, data36