Доктор Стилианос Кампакис

Примечание. Это отрывок из моей новой книги под названием "Неопределенность".

Самое популярное определение вероятности и, возможно, самое интуитивное — это частотное определение. По мнению частотников, вероятность события определяется как предел частоты этого события при большом числе испытаний.

Что это значит? Вернемся к примеру с подбрасыванием честной монеты. Вы сказали, что вероятность выпадения голов на одном рулоне составляет 50%. Однако откуда вы знаете, что это правда? Что если выбросить решку 10 раз подряд? Изменит ли это вероятность выпадения голов? Очевидно нет. Интуитивно это понятно, но почему?

Я провел эксперимент с подбрасыванием монеты (симулированный на языке программирования R [1]), и вы можете увидеть результаты ниже. Доля голов очень быстро сходится к 50%.

Рисунок 1. Эксперимент с подбрасыванием монеты

Это определение частотной вероятности на практике. Если провести эксперимент большое количество раз, то частоты будут сходиться к истинным вероятностям.

Частотистская статистика была ортодоксальной ветвью статистики на протяжении большей части ее истории. Статистика основана на идее, что вы можете извлечь выборку из совокупности, а затем изучить свойства совокупности. Если мы будем относиться к каждой сущности в этой выборке как к эксперименту, то чем больше мы соберем выборок, тем ближе подберемся к истине.

Однако есть определенные события, для которых это определение не имеет смысла. Многие из этих событий оказываются очень важными для нашей жизни, и они уникальны. Некоторые примеры включают выборы и спортивные мероприятия. Мы не можем провести эксперимент с 1000 выборов и посмотреть, что произойдет. Кроме того, мы не можем запустить 1000 финалов Лиги чемпионов, чтобы определить истинную вероятность победы «Реала».

В таких случаях частотное определение вероятности, кажется, доставляет нам неприятности. Здесь нам на помощь приходит байесовское определение вероятности.

Термин «байесовский» принадлежит преподобному Томасу Байесу (1701–1761), изображенному ниже.

Рисунок 2. Портрет Томаса Байеса. Мы не уверены на 100%, действительно ли это его, но это единственное, что у нас есть. Улавливаете иронию в том, что неуверенность в лице человека, ответственного за один из наших лучших инструментов против неуверенности?

Байес использовал условную вероятность (о которой мы вскоре расскажем) в своем эссе «Эссе о решении проблемы в доктрине шансов», которое было представлено в Королевском обществе. в 1763 году. Если вы заметили год его смерти в предыдущем абзаце, вы поймете, что это эссе было представлено посмертно. Друг Байеса Ричард Прайс (1723–1791) обнаружил записи Байеса и опубликовал его работу.

Работа Байеса касалась следующей проблемы: как можно узнать вероятность события, основываясь только на том, сколько раз оно произошло или не произошло в прошлом? Байес использовал мысленный эксперимент, чтобы проиллюстрировать свой аргумент.

Байес стоит спиной к столу, и его помощник бросает на него мяч. Вероятность того, что шарик упадет в любом месте на столе, равна. Байес должен угадать, где находится мяч. На этом первом проходе Байес испытывает максимальную степень неопределенности, поскольку мяч действительно может находиться где угодно на столе.

На следующем шаге его помощник бросает еще один мяч и сообщает, упал ли он с левой или с правой стороны от первого. Предположим, что на этот раз мяч приземлился на правой стороне стола. Можно предположить, что первый шар теперь с большей вероятностью будет слева. Если бы первоначальный мяч приземлился слева, то справа было бы больше места для приземления другого мяча.

Затем помощник бросает еще один мяч, после чего этот мяч снова приземляется вправо. Это делает еще более вероятным, что первоначальный шар лежит слева. Следовательно, с каждым броском мы все больше и больше сужаем положение исходного брошенного мяча.

Рисунок 3. Изображение аргумента Байеса. После первого броска шара (черный шар) второй бросок (оранжевый шар) имеет больше места справа от стола, чем слева. Во втором ряду (слева) вы можете видеть, что есть всего несколько позиций, в которых второй мяч может оказаться слева от исходного мяча. На графике второй строки (справа) вы видите все позиции справа от исходного шара, где мог лежать оранжевый. Понятно, что справа от исходного шара больше места, и большая часть этого пространства лежит справа от стола. Однако оранжевый шар все еще может находиться справа от черного шара, но с левой стороны стола. Таким образом, двух бросков недостаточно, чтобы точно определить местонахождение черного шара.

В современном мире это может немного напомнить нам настольную игру «Морской бой». В линкорах каждый игрок (в игре всего 2 игрока) должен размещать корабли на квадратной доске. В каждом раунде игроки указывают одну точку на доске, которую они атакуют. Если они попали в часть корабля, то противник сообщает им, что им удалось попасть в корабль, но никакой другой информации не дается. Как видно на рисунке ниже, есть два способа размещения кораблей на доске (как по горизонтали, так и по вертикали). Таким образом, игрок должен сначала выяснить, где находится корабль, получив начальное попадание, а затем угадать, где находится остальная часть корабля. Пробуя больше и очки на доске, неопределенность в отношении местоположения кораблей уменьшается раунд за раундом.

Рис. 4. Вариант настольной игры "Морской бой".

Таким образом, основная концепция идеи Байеса заключалась в следующем:

Исходное убеждение + новая информация = новое убеждение

В современную эпоху это превратилось в:

Априорная + вероятность = апостериорная

Подробнее об этом мы расскажем ниже. Интересно, что Байес никогда не фокусировался на теореме, которая теперь носит его имя. Математикам того времени не очень нравился его подход по двум причинам. Во-первых, угадывание не казалось слишком строгим процессом. Во-вторых, в отсутствие информации Байес предполагал, что все исходы равновероятны. В современной гостиной мы бы сказали, что приор однороден. Необходимость присваивать априорную вероятность веры казалась дополнительным препятствием.

Теорема была независимо открыта одним из самых выдающихся математиков всех времен: Пьером-Симоном де Лапласом. Лаплас заново открыл этот принцип и опубликовал его в 1774 году. В конце концов, он узнал об открытии Байеса в 1781 году, когда Прайс посетил Париж. Лаплас усовершенствовал свою формулу и решил проверить ее.

Лаплас изучал вопрос о том, является ли наблюдение, что рождается больше мальчиков, чем девочек, законом природы или просто статистической аномалией. Он собирал записи из Лондона, Парижа, Санкт-Петербурга, сельских районов Франции, Египта и Центральной Америки. Используя свою теорему, он сумел заключить, что действительно это похоже на закон природы»[2]».

Лаплас внес большой вклад в другие научные области, например в астрономию. Есть известное выражение, приписываемое Лапласу. История гласит, что Наполеон спросил его, почему он не включает Бога в свои объяснения движения небесных объектов, на что знаменитый Лаплас ответил: Je n’avais pas besoin de cette hypothèse-là. («Мне не нужна была эта гипотеза».

Лаплас был частью человеческой эры, наряду с Ньютоном, который спровоцировал научную революцию, когда математика и разум стали основными инструментами для объяснения неопределенности вместо религиозных и метафизических объяснений.

Хотя Лаплас сделал большую часть работы над теоремой Байеса, его имя никогда не было связано с ней.

Позже Лаплас открыл центральную предельную теорему, одно из самых сильных и значительных открытий в современной математике (подробнее об этом мы расскажем позже). Обнаружив это, он понял, что как только у нас появилось большое количество данных, байесовский подход сошелся с традиционным частотным подходом. Так Лаплас обратился к частизму, которого придерживался до конца жизни.

[1] Язык R (https://www.r-project.org/) является самым популярным языком для статистики. Однако Python, похоже, обогнал его в машинном обучении.

[2] Теперь мы знаем, что соотношение составляет примерно 105 мальчиков на 100 девочек: http://www.searo.who.int/entity/health_situation_trends/data/chi/sex-ratio/en/

Первоначально опубликовано на https://thedatascientist.com 16 декабря 2020 г.