Рассчитано с помощью Excel, чтобы меньше путаться в парадоксе ложных срабатываний.

Наше интуитивное восприятие статистики может быть ошибочным, и статистические парадоксы могут быть повсюду. Когда мы осознаем это, мы можем более критично относиться к тому, как наша интуиция может дезориентировать нас в выводах.

В этой статье я расскажу о парадоксе ложных срабатываний. Для тех, кто всегда знает этот парадокс, вы также можете прочитать мои мысли о его связи с машинным обучением.

Парадокс

Представьте, что сейчас пандемия, и правительство пытается организовать тесты для всех.

Обычно приводятся следующие характеристики теста:

  • Чувствительность теста указывает на эффективность теста для правильной идентификации инфицированных людей. Он также известен как истинно положительный показатель или отзыв. Максимальное значение – 100 %. Это означает, что все зараженные люди идентифицированы правильно.
  • Специфичность теста указывает на то, что тест правильно идентифицирует незараженных людей. Наибольшее значение также равно 100%, что означает, что все неинфицированные люди идентифицированы правильно. В нашем случае предположим, что специфичность теста составляет 98 %. Теперь, вы думаете, что это уже довольно высоко? Мы изменим значение и посмотрим, как это повлияет на результаты.

Пострадавшее население оценивается в 2%. Мы также называем этот показатель распространенностью заболевания.

А теперь представьте, что вы делаете тест, и он положительный. Какова вероятность того, что вы действительно инфицированы? Этот показатель также называется точностью теста.

Интуитивно, какое значение вы думаете? Около 90 %? А если вам сказать, что это скорее 50%! Да, тест положительный, но вероятность того, что вы действительно заразитесь, составляет всего 50%.

Чтобы быть предельно ясным в отношении вычислений, я создал Google Таблицу для выполнения всех вычислений. Давайте начнем!

Матрица путаницы для низкой распространенности

Истинный положительный и истинно отрицательный

Начнем с количества действительно инфицированных и незараженных людей. Учитывая, что общая численность населения составляет 1000 человек, так как распространенность составляет 2%, у нас всего 20 инфицированных.

Теперь, учитывая специфичность и чувствительность, мы можем рассчитать количество истинно положительных и истинно отрицательных результатов.

  • Поскольку тест высоко специфичен, все инфицированные идентифицируются.
  • Специфика не идеальна, у нас выявлено 960 человек из 980.

Ложноотрицательный и Ложноположительный

Чтобы заполнить таблицу, мы можем сделать некоторые вычитания, и у нас есть количество ложноотрицательных и ложноположительных результатов.

Точность теста

После того, как мы заполнили матрицу путаницы, теперь мы можем рассчитать точность теста, разделив количество истинно положительных результатов на общее количество положительных результатов тестирования.

Из-за того, что количество истинно положительных результатов невелико из-за низкой распространенности, даже если тест довольно специфичен (98%), количество ложноположительных результатов относительно велико по сравнению с истинно положительными.

Таким образом, точность теста довольно низкая, около 51%!

Мы можем внести некоторые изменения в характеристики теста, и более высокая специфичность повысит точность теста.

Ложноположительный парадокс

Статистический парадокс заключается в том, что, несмотря на высокую специфичность, точность низка из-за очень низкой распространенности. Это называется парадоксом ложноположительного результата, потому что, несмотря на то, что тест положительный, у нас все еще есть относительно высокий шанс быть ложноположительным.

Это также своего рода ошибка базового уровня, потому что мы пренебрегаем тем фактом, что число инфицированных невелико по сравнению с общей численностью населения.

Матрица путаницы для высокой распространенности

С файлом Excel, если увеличить распространенность, то этого парадокса мы не увидим.

Реальные данные

Я искал некоторые реальные данные о тестировании Covid. Вы можете прочитать этот файл о характеристиках тестов. Мы видим, что специфичность обычно выше 99,8%. Иногда это даже 100%.

Связь с машинным обучением

Оценка эффективности

Матрица путаницы используется для медицинской диагностики, а также для поиска информации и машинного обучения для задач классификации.

С точки зрения машинного обучения низкая распространенность означает несбалансированные обучающие данные. В этом случае для оценки производительности модели необходимо учитывать как точность, так и отзыв. Затем мы можем рассчитать оценку F1, которая является гармоническим средним значением точности и полноты.

Мы можем знать, что при построении модели невозможно получить высокие значения как точности, так и полноты. Таким образом, мы должны выбрать, чтобы подчеркнуть один из них. Что касается медицинского диагноза, на каком из них вы решили сделать акцент?

Недооснащение

Если учесть, что матрица путаницы рассчитывается для одной модели машинного обучения, то эта модель имеет только одну переменную(результат теста), и это своего рода недообучение. На практике у нас больше переменных, которые могут быть разными симптомами. Таким образом, объединив их, мы сможем повысить точность. Конечно, если болезнь протекает бессимптомно, мы не сможем получить больше информации, как в случае больших пропущенных значений.

Например, на странице Википедии Базовая частота ошибок у нас есть пример пьяных водителей. Парадокс можно применить, но на практике обычно используются другие признаки для повышения точности. Если водитель не может ехать по прямой или не может внятно говорить, то на самом деле в нашей модели больше переменных, чтобы определить, пьян ли водитель.

Выводы

Что можно сказать об этом парадоксе и других, о которых я тоже хотел бы написать? С одной стороны, важно иметь статистическую культуру, чтобы мы знали, что иногда наша интуиция может привести нас к ложным выводам. С другой стороны, реальный мир намного сложнее, и мы не должны останавливаться на простой статистике.