Я пишу эту статью с намерением познакомить вас с байесовской теорией вероятностей, силой информации и недостатками наших предположений, которые часто обходятся нам очень дорого. В нашем путешествии по постижению «непостижимого» мы исходим из статистической точки зрения, но эта статья предназначена не только для тех, кто занимается статистикой.

Со статистической точки зрения

В реальном мире понятия «ложноположительный» и «истинно отрицательный» играют решающую роль в удобстве использования модели прогнозирования. Многие системы могут допускать некоторый отзыв, но требуют высокой точности, тогда как другие могут идти на компромисс как в точности, так и в отзыве. Системы, ориентированные на точность, — это те, в которых мы хотим получить «истинный» прогноз только тогда, когда наша модель достаточно уверена в этом, а ложные срабатывания неприемлемы. Системы, ориентированные на припоминание, склонны делать «верный» прогноз, даже если они немного в этом уверены. Цель здесь состоит в том, чтобы не ошибиться в классификации любого образца, который может быть верным.

Рассмотрим картофелесортировочную машину на ферме, которая должна собирать картофель для приготовления картофеля фри в ресторане быстрого питания. Рестораны предпочитают крупный картофель, а обычные потребители почти никогда не купят крупный картофель, если он попадет на рынок. Таким образом, машина должна быть обучена таким образом, чтобы она не ошибочно классифицировала крупные картофелины, но в то же время не возникало проблем, если она выбирала более мелкие картофелины. Это пример системы, ориентированной на припоминание.

Мы все многим обязаны детекторам спама в электронной почте. Они тщательно построены, чтобы они не ошибочно классифицировали сообщения, не являющиеся спамом, как спам. Несколько писем со спамом, попадающих в наш почтовый ящик, терпимы, но письмо, не являющееся спамом, в конечном итоге рассматривается как спам. Следовательно, это пример системы, ориентированной на точность.

Весь процесс оценки классификационных баллов и осмысления результатов меняется, когда распределение классов очень неравномерно. Нам нужно посетить теорему Байеса, прежде чем мы продолжим.

Теорема Байеса

Теорема Байеса используется для определения условной вероятности события. Теорема говорит нам, что вероятность события меняется в зависимости от предоставленной нам информации.

Теорема Байеса кажется кошмарной, но мы попробуем добраться до нее, используя простые шаги.

Пусть A и B — два взаимоисключающих события, а P(A) и P(B) — их соответствующие вероятности, тогда

P(A or B) = P(A) + P(B)

Точно так же, если А и В не исключают друг друга,

P(A или B) = P(A) + P(B) -P(A и B) (область перекрытия считается дважды, поэтому нам нужно вычесть ее один раз)

Теперь давайте рассмотрим возникновение обоих событий. Если А и В исключают друг друга,

Р(А и В) = Р(А) * Р(В)

Если они не исключают друг друга,

P(A и B) = P(A) * P(B при данном A) = P(B) * P(A при заданном B)

Это приводит нас к:

P(B при заданном A) = P(A и B) / P(A)

P(B при заданном A) = ( P(A при заданном B) * P(B)) / P(A) (это теорема Байеса)

Теорема Байеса просто переключает условие и дает результат, основанный на информации об обратном условии.

Поясню на коротком примере: вытягивание двух карт из перетасованной колоды и получение сначала короля, а затем дамы — это два отдельных взаимоисключающих события, если карты выбираются и заменяются. Если они не заменены, то эти два события не являются взаимоисключающими, поскольку результат второго розыгрыша зависит от того, произошло ли первое или нет (второй розыгрыш будет из набора из 51 карты, а не из 52).

Почему вероятность одного события не говорит всей истории

Рассмотрим группу людей, которых нужно проверить на детекторе лжи. Лампа автомата загорается, если обнаруживает, что человек говорит неправду. Спецификации эксперимента таковы:

  • Вероятность того, что человек солжет = P(ложь) = 1%
  • Вероятность того, что человек говорит правду = P(правда) = 99%
  • Вероятность свечения лампочки машины, если человек говорит неправду (чувствительность машины) = P(свечение при лжи) = 95%
  • Таким образом, P(свечение с учетом правды) = 5%

Точность детектора лжи очень убедительна, но сама по себе точность — это история, наполовину невыразимая.

Предположим, человека проверили на машине, и лампочка загорелась. Какова вероятность того, что человек лгал?

Используя теорему Байеса,

P(ложь при заданном свечении) = ( P(при заданном свечении) * P(ложь)) / P(свечение)— — 1

Теперь P(яркость) = P(яркость, учитывая ложь) * P(ложь) + P(яркость, учитывая правду) * P(правда)

Используя его в уравнении 1:

P(ложь при наличии свечения) = ( P(приятие при наличии лжи) * P(ложь)) / ( P(приятие при наличии лжи) * P(ложь) + P(приятие при наличии правды) * P(правда))

P(ложное свечение) = (0,95 * 0,01) / (0,95 * 0,01 + 0,05 * 0,99) = 0,1610

ОКАЗЫВАЕТСЯ, ЕСЛИ ДЕТЕКТОР ЛЖИ СРАБАТЫВАЕТ, ТОЛЬКО 16,1 % ВЕРОЯТНОСТЬ, ЧТО ЧЕЛОВЕК ВРЕЛ!

Почему мы получили такой обманчивый результат после такой убедительной точности?

Причина в том, что было очень неравномерное распределение классов, и ложные срабатывания, хотя и были небольшими по пропорции, но значительно большим по количеству, просто увеличивали количество положительных результатов (ложь, обнаруженная устройством).

Мы были убеждены в точности устройства, но никогда не принимали во внимание, насколько редок был шанс, что человек действительно солжет. Следовательно, такие тесты проводятся более одного раза, чтобы снизить уровень ложноположительных результатов. Вероятность того, что ложноположительный результат снова окажется ложноположительным, очень мала.

P(два ложных срабатывания подряд) = 0,05 * 0,05 = 0,0025

Человеческая склонность оптимистично переоценивать исход события глубоко изучена в психологии под названием ошибка базовой оценки.

Похожая часто встречающаяся проблема в машинном обучении

Рассмотрим задачу обучения с учителем, в которой распространенность одного класса гораздо выше, чем у других. Предположим, что вероятность принадлежности выборки к доминирующему классу составляет 90%. Теперь предположим, что наша модель показала хорошие результаты на тестовых данных с впечатляющей оценкой 92%.

Теперь, если построить фиктивный предсказатель, который всегда предсказывает доминирующий класс, мы все равно достигнем показателя точности 90%, что всего на 2% меньше, чем у предиктора, который выглядел очень хорошо на бумаге. Модель лишь незначительно превосходит «нелогический» предиктор.

Следовательно, важно учитывать характеристики распределения классов в дополнение к точности предиктора.

В такой ситуации всегда рекомендуется сравнивать результаты с фиктивным предиктором, чтобы проверить, не обманули ли нас завышенные оценки.

Ставьте аплодисменты, если вы нашли это информативным!