Важная концепция для создания точных моделей машинного обучения

Таблица содержания

  1. "Вступление"
  2. Что такое статистическая погрешность?
  3. Типы статистической погрешности

Вступление

Представьте себе это.

Вы баллотируетесь в президенты и хотите быть голосом большинства.

Итак, вы отправляетесь в движение защитников окружающей среды и спрашиваете пять человек, что они думают о мясной промышленности, и все пятеро единодушно говорят, что производство мяса должно быть запрещено. Вы сразу же убеждаете, что все хотят запретить производство мяса, чтобы спасти Землю.

Вы делаете это заголовком своей кампании и проповедуете его днем ​​и ночью, думая, что это секрет победы в вашей кампании.

Через 4 месяца вы наберете менее 1% голосов.

Вашей идиократии можно было бы легко избежать, если бы вы знали о предвзятости.

Предвзятость важна не только в статистике и машинном обучении, но и в других областях, таких как философия, психология и бизнес.

Как правило, предвзятость определяется как «предубеждение в пользу или против одного предмета, человека или группы по сравнению с другим, обычно считающееся несправедливым».

Предвзятость - это плохо. Мы хотим минимизировать предвзятость, насколько это возможно.

Что такое статистическая погрешность?

В этой статье мы сосредоточимся на статистической погрешности. Статистическая ошибка - это, по сути, случай, когда модель или статистика не репрезентативны для населения, и есть несколько источников систематической ошибки, которые вызывают это.

Типы статистической погрешности

К наиболее частым источникам предвзятости относятся:

  1. Критерий отбора
  2. Предвзятость в отношении выживаемости
  3. Пропуск переменной смещения
  4. Отзыв смещения
  5. Предвзятость наблюдателя
  6. Предвзятость в финансировании

Критерий отбора

Систематическая ошибка отбора - это феномен отбора людей, групп или данных для анализа таким образом, что надлежащая рандомизация не достигается, что в конечном итоге приводит к выборке, не репрезентативной для всей совокупности. [1]

В рамках систематической ошибки выбора существует несколько типов систематической ошибки выбора:

  • Систематическая ошибка выборки: относится к смещенной выборке, вызванной неслучайной выборкой.
    В качестве примера представьте, что в комнате находится 10 человек, и вы спрашиваете, предпочитают ли они виноград или бананы. Если бы вы опросили только трех женщин и пришли к выводу, что большинству людей нравится виноград, вы бы продемонстрировали систематическую ошибку выборки.

  • Смещение временного интервала: смещение, вызванное намеренным указанием определенного диапазона времени для подтверждения желаемого вывода. Например, вывод о среднем количестве твитов в час из выборки, взятой в часы пик (9–12 утра), является примером смещения временного интервала.

  • Ошибка восприимчивости: включает систематическую ошибку клинической восприимчивости, протопатическую ошибку и ошибку показаний, которые связаны с идеей потенциального смешения причины, следствия и корреляции.
  • Предвзятость подтверждения: тенденция отдавать предпочтение информации, подтверждающей убеждения.

Предвзятость в отношении выживаемости

Феномен, при котором в анализ включаются или исключаются только те, кто «пережил» длительный процесс, таким образом создавая предвзятую выборку.

Прекрасный пример, приведенный Шринивасаном Чандрасекаром, заключается в следующем:

«Мы записываемся в тренажерный зал и посещаем его на несколько дней. Мы видим одни и те же лица многих людей, которые находятся в хорошей форме, мотивированы и тренируются каждый день, когда ходим в спортзал. Через несколько дней мы впадаем в депрессию, почему не можем придерживаться своего графика и мотивации больше недели, в отличие от большинства людей, которых мы видели в тренажерном зале. Чего мы не заметили, так это того, что многие люди, записавшиеся в тренажерный зал, также перестали приходить в тренажерный зал буквально через неделю, и мы их не видели ».

Пропуск переменной смещения

Это предвзятость, связанная с отсутствием в модели соответствующих переменных. В машинном обучении удаление релевантных и / или слишком большого количества переменных приводит к неполноценной модели.

Примером этого является покупка автомобиля на основе марки и модели автомобиля, а не пробега. Представьте себе Porsche 911 turbo 2020 года за 10 000 долларов - звучит как кража, пока вы не обнаружите, что на нем 400 000 миль.

Отзыв смещения

Предвзятость вспоминания - это тип информационного предубеждения, при котором участники не «вспоминают» предыдущие события, воспоминания или детали.

Это также связано с предвзятостью к новизне, когда мы лучше запоминаем вещи, которые произошли совсем недавно.

Предвзятость наблюдателя

Это предвзятость, которая проистекает из субъективной точки зрения наблюдателей и того, как они оценивают субъективные критерии или записывают субъективную информацию.

Предвзятость в финансировании

Также известная как предвзятость спонсорства, это тенденция искажать исследование или результаты исследования, чтобы поддержать финансового спонсора.

Больше статей, подобных этой, можно найти на https://blog.datatron.com/.

Спасибо за прочтение!

Если вам нравится моя работа и вы хотите поддержать меня, подпишитесь на мою рассылку здесь!

Ресурсы

[1] Ошибка выбора, Википедия

Объяснение типов статистических смещений (с примерами) - часть 1, data36

Предвзятость в статистике: определение, предвзятость отбора и предвзятость по выживаемости, Как сделать статистику

Крупнейшее исследование в области науки о социальных сетях: что 4,8 миллиона твитов говорят о наилучшем времени для твитов, Buffer.com

Джон Кук, почему существуют отрицатели климата, Twitter