Смущает матрица замешательства

В чем разница между показателем попаданий, истинно положительным показателем, чувствительностью, отзывом и статистической мощностью?

Если вы попытались ответить на вопрос в названии, вы будете разочарованы, узнав, что это на самом деле вопрос с подвохом - по сути, в перечисленных терминах нет никакой разницы. Так же, как проблема, упомянутая в ANCOVA и Модерация, разные термины часто используются для одного и того же, особенно когда они относятся к разным областям. В этом посте будет предпринята попытка рассеять путаницу, объединив эти термины, и объяснить, как интерпретировать ячейки матрицы путаницы, используя контекст обнаружения эффекта.

На изображении выше показаны обычно используемые термины для каждой ячейки в матрице неточностей. Синие ячейки - это желаемый результат, а красные - ошибки. Здесь я использую контекст того, существует ли эффект и наблюдался ли эффект, в отличие от соответствующих «Фактический класс» и «Прогнозируемый класс», которые обычно используются для объяснения матриц путаницы. Я считаю, что это более интуитивный способ понимания информации в каждой ячейке, поскольку термины «Фактический класс» и «Прогнозируемый класс» также часто сбивают с толку людей.

«Истинно-положительный», «Ложно-положительный», «Истинно-отрицательный» и «Ложно-отрицательный», пожалуй, самые популярные ярлыки для ячеек в матрице путаницы, но сколько раз вы видели, как кто-то делал паузу, чтобы попытаться выяснить, что «Истинно»? «Отрицательный» и «Ложноотрицательный» означают? Ошибки «Типа I» и «Типа II» при проверке статистических гипотез еще хуже, поскольку их названия даже не дают представления о типе совершаемой ошибки. Некоторые люди могут даже не осознавать, что эти статистические термины на самом деле являются частью матрицы путаницы.

Учитывая, насколько неинтуитивно эти термины, я предпочитаю использовать версию этих ярлыков теория обнаружения сигнала: Попадание, Ложная тревога, Правильное отклонение и Пропуск. На самом деле это имеет большой смысл, если мы поместим их в контекст:

Если я заметил эффект, когда эффект существует, это попадание
Если я не заметил эффекта, когда эффект существует, это промах
Если я заметил эффект, когда никакого эффекта нет, это ложная тревога.
Если я не заметил эффекта, когда никакого эффекта нет, это будет правильное отклонение.

Эта версия ярлыков уже содержит коннотацию того, что правильно, а что неправильно, поэтому становится очень легко сразу сделать вывод, что именно происходит. По этой причине я буду ссылаться на эту версию ярлыков до конца сообщения. На этом этапе важно отметить, что ячейки в матрице путаницы содержат абсолютное количество вхождений для каждой ситуации, и НЕ следует путать с вероятностями их возникновения, такими как «Частота совпадений». или «Истинно положительная ставка». Далее я объясню, как рассчитываются эти разные ставки.

Вероятности, основанные на наличии эффекта

Теперь, когда вы знаете, что ячейки в матрице неточностей содержат абсолютное количество вхождений, вы можете задаться вопросом, как появляются другие термины, такие как «частота совпадений» и «истинно положительная частота». Коэффициенты фактически рассчитываются на основе наличия эффекта, который относится только к определенной части матрицы неточностей, а не ко всей ее (красные контуры на изображении непосредственно выше). Например, «Коэффициент попадания» рассчитывается путем деления количества попаданий на общее количество появлений, когда эффект существует (т. Е. Общее количество попаданий плюс промахи); «Коэффициент промахов» тогда будет просто равен 1 минус «Коэффициент попадания». И наоборот, «частота ложных тревог» рассчитывается путем деления количества ложных тревог на общее количество случаев, когда эффект не существует (т. Е. Общее количество ложных тревог плюс правильные отклонения); «Правильный коэффициент отклонения» тогда будет просто равен 1 минус «Частота ложных срабатываний».

Здесь начинают появляться различные термины для обозначения одного и того же понятия. Чувствительность и Отзыв такие же, как Частота совпадений, а Специфичность и Избирательность такие же, как Правильная частота отклонения. Чувствительность и Специфичность чаще используются в области медицины, где есть интерес для измерения эффективности диагностического теста, в то время как Отзыв и Выпадение чаще используются в машинном обучении для измерения прогнозов. точность. Даже у статистики есть свой жаргон, хотя на самом деле все они имеют в виду одно и то же.

Большинство исследователей должны быть знакомы со статистической значимостью, которая представляет собой вероятность совершения ошибки типа 1 (α). Вероятно, не так уж сложно связать это с частотой ложных тревог, поскольку это вероятность наблюдения эффекта, когда эффекта не существует. Но некоторые исследователи могли не связывать понятие статистическая мощность с коэффициентом попадания. Из-за слова мощность исследователей легко вводить в заблуждение, заставляя думать, что исследование с высокой мощностью мощно достаточно, чтобы сделать вывод. Это не то, что означает статистическая мощность; это просто вероятность наблюдения эффекта при его существовании. Это становится особенно очевидным, когда мы думаем об ошибке типа II (β) как о промахе, а 1 минус показатель промахов дает нам вероятность попаданий при существовании эффекта.

Я надеюсь, что это проясняет, что означают разные ставки, и теперь вам удобны различные термины. В конце этого поста я буду использовать матрицу путаницы, чтобы проиллюстрировать разницу между проверкой частотных и байесовских гипотез. Но перед этим я объясню, что происходит, когда вероятности рассчитываются, на основании того, наблюдался эффект или нет.

Вероятности, основанные на том, наблюдался ли эффект

Менее известный, но, тем не менее, важный метод измерения точности - это вычисление вероятности того, что эффект существует, когда эффект наблюдается. Точно так же коэффициенты рассчитываются со ссылкой только на определенную часть матрицы неточностей, которая представляет собой красные контуры на изображении непосредственно выше. Например, Коэффициент ложного обнаружения рассчитывается путем деления количества ложных тревог на общее количество случаев, когда наблюдался эффект (то есть общее количество совпадений плюс ложные тревоги), в то время как Коэффициент ложных пропусков равен рассчитывается путем деления количества промахов на общее количество случаев, когда эффект не наблюдался (т.е. общее количество промахов плюс правильные отклонения).

Термины Истинный коэффициент обнаружения и Истинный коэффициент пропусков заключены в круглые скобки, поскольку они не являются фактическими терминами. Чаще используются термины положительная прогностическая ценность и отрицательная прогностическая ценность, но я думаю, что гораздо более интуитивно понятнее использовать True Discovery Rate, поскольку он означает степень того, что является правдой в том, что у меня есть. обнаруженный". В конце концов, это полная противоположность своего аналога «False Discovery Rate, что делает ассоциацию более прямой. Другой термин для True Discovery Rate - Precision - термин машинного обучения, который обычно используется в паре с Recall, который был введен выше.

Знать истинную частоту обнаружения так же важно, как знать частоту попаданий, если не больше. Это особенно актуально, когда распространенность эффекта на самом деле не очень велика. В таких ситуациях вероятность получения ложной тревоги при обнаружении эффекта становится очень высокой. Именно здесь байесовцы пытаются объяснить то, что частотисты упускают в своем анализе, что я буду обсуждать далее, используя матрицы путаницы.

Бонус: частотный и байесовский анализ с использованием матриц неточностей

В моем предыдущем посте Байесовский анализ и кризис репликации я представил фундаментальные принципы байесовского анализа и то, как эти принципы могут помочь преодолеть кризис репликации. Работая над этим постом, я понял, что байесовский анализ гораздо проще объяснить с помощью матрицы путаницы, при условии, что вы уже знакомы с ней. Термины в байесовском анализе снова являются еще одной вариацией того, что мы уже узнали в матрице неточностей, но я вернусь к этому через некоторое время.

Во-первых, давайте рассмотрим упомянутый мной сценарий, в котором распространенность эффекта не очень велика. До сих пор мы рассматривали матрицы путаницы, которые были разделены на четыре равных квадранта. На самом деле, однако, пропорции обычно не равны. Более реалистичная матрица путаницы с фактическими пропорциями построена ниже:

Когда мы говорим о распространенности эффекта, мы, по сути, имеем в виду вероятность того, что эффект вообще существует. Это также известно как базовая ставка или априорные шансы / вероятности, обычно используемые в байесовском анализе (разные термины снова относятся к одним и тем же вещам). Мы часто предполагаем, что случайное наблюдение эффекта - дело 50–50. Но, как вы можете видеть на изображении выше, область, занятая попаданиями и промахами, намного меньше, чем область, занимаемая ложными тревогами и правильными отклонениями. Это показывает, что распространенность эффекта мала, и случайное наблюдение определенно не 50–50. В сочетании с низким показателем попаданий площадь, занимаемая ударами по сравнению со всем остальным, становится очень маленькой. Несмотря на то, что доля правильных отклонений является наибольшей, наблюдение эффекта просто слишком ненадежно, потому что очень высока вероятность того, что это ложная тревога, а не попадание.

В подходе Frequentist к проверке гипотез наиболее важной статистикой традиционно было значение p. Значение p - это оценка вероятности наблюдения эффекта, когда его не существует. Следовательно, чем меньше значение p, тем ниже частота ложных тревог (или частота ошибок типа I) и тем выше частота правильного отклонения. Однако обратите внимание, что этот метод не принимает во внимание процент попаданий (или статистическую мощность), а также не касается распространенности эффекта. Это приводит к проблемам, упомянутым в матрице путаницы с фактическими пропорциями.

В байесовском подходе априорные вероятности обновляются текущими доказательствами (также известными как вероятность) для получения апостериорных вероятностей. Если все это кажется вам чуждым, обратитесь к моему предыдущему посту за пояснениями. Но даже не обращаясь к моему предыдущему посту, я обнаружил, что это снова разные термины, которые относятся к одному и тому же в матрице путаницы. Ссылаясь на изображение непосредственно выше, априорная вероятность - это на самом деле распространенность или базовая скорость существования эффекта (зеленые контуры в матрице смешения слева). Вероятность немного сложнее, но она рассчитывается путем деления показателя попаданий (или статистической мощности, красные очертания в матрице путаницы слева) на вероятность проведения наблюдения в целом ( желтые контуры в матрице путаницы слева). Апостериорная вероятность оказывается истинным коэффициентом обнаружения (красные контуры в матрице неточности справа), который нельзя вычислить напрямую, но можно оценить на основе априорной вероятности, взятой из ранее известной информации. и вероятность, полученная из информации в настоящем исследовании. Затем рассчитывается отношение истинной скорости открытия (или апостериорной вероятности) к базовой скорости (или априорной вероятности) для определения байесовского фактора, который указывает на то, склоняется ли свидетельство к нулевой или альтернативной гипотезе.

* * * * * * * * * *

Цель использования матриц неточностей для различения двух статистических подходов не состоит в том, чтобы показать, что байесовский подход лучше, потому что он принимает во внимание больше информации. Я пытаюсь объяснить, что очень часто эти концепции могут показаться довольно запутанными при использовании незнакомых терминов. Но если мы поймем, что есть эквивалентные термины, которые более интуитивно понятны или с которыми мы более знакомы, концепции станут намного проще для понимания. Я до сих пор не знаю, почему эти термины не стандартизированы для различных областей, но я буду продолжать выступать за использование версии Hit, False Alarm, Correct Rejection и Miss в версии теории обнаружения сигнала. , потому что они действительно намного более интуитивно понятны для концептуализации.

Если вы нашли эту статью полезной, перейдите по следующей ссылке, чтобы перейти ко второй части этой серии:

Смущает Матрица путаницы, часть 2
« Точность - это всего лишь один из многих показателей точности… в сторонуdatascience.com»

Первоначально опубликовано по адресу: https://learncuriously.wordpress.com/2018/10/21/confused-by-the-confusion-matrix

Смущает матрица замешательства

В чем разница между показателем попаданий, истинно положительным показателем, чувствительностью, отзывом и статистической мощностью?

Вероятности, основанные на наличии эффекта

Вероятности, основанные на том, наблюдался ли эффект

Бонус: частотный и байесовский анализ с использованием матриц неточностей

Вопросы по теме