Статистика и вероятность: введение в вероятность

Представьте, что вы участвуете в конкурсе. Хозяин представляет вам три двери. За одной из этих дверей стоит новенькая Audi, а за двумя оставшимися дверями - козы. Ведущий просит вас выбрать одну из этих трех дверей, а затем приступает к открытию одной из двух оставшихся дверей, чтобы увидеть козла. А теперь скажите мне, вы придерживаетесь своей первоначальной двери или переключаетесь на другую закрытую дверь, чтобы получить свою Audi?

Это знаменитая Проблема Монти Холла. Что, если я скажу вам, что, изучив основы теории вероятностей, у вас будет больше шансов выиграть этот конкурс и отправиться домой на новенькой Audi?
Статистика и вероятность - это предметы, на которые в машинном обучении часто не обращают внимания. Многие люди склонны игнорировать их, потому что они кажутся сложными и, возможно, не такими крутыми, как машинное обучение. Но для того, чтобы понять и усвоить основные концепции, лежащие в основе некоторых из наиболее широко используемых алгоритмов машинного обучения, важно, чтобы человек хотя бы был знаком с основами статистики и вероятности. Цель этой статьи - дать вам ценное введение в Вероятность и ее различные типы. Наряду с этим нам также необходимо решить проблему Монти Холла, поэтому давайте рассмотрим несколько важных моментов.

Вероятность

Вероятность, как следует из названия, - это не что иное, как оценка вероятности того, что событие может произойти. Также известное как предельная вероятность, это просто число, которое отражает вероятность того, что событие произойдет. Это может быть число от 0 до 1 или выраженное в процентах. Давайте рассмотрим это шаг за шагом.

Эксперимент

Мы определим эксперимент в контексте теории вероятностей - раздела математики, имеющего дело с вероятностью. Эксперимент определяется как процедура, которая, хотя и может повторяться бесконечное количество раз, все же имеет четко определенный набор возможных результатов.

Эксперимент может быть двух типов, и мы различаем их с точки зрения результатов. Пример для обоих:

  • Случайный эксперимент: бросая кубик, можно получить одно из 6 значений - {1, 2, 3, 4, 5, 6}
  • Детерминированный эксперимент: сложение определенного набора чисел всегда дает один и тот же результат.

Мероприятие

Событие - это результат или, скорее, набор результатов эксперимента, для которого мы можем рассчитать вероятность. Коллекция всех возможных результатов эксперимента образует образец пространства. Таким образом, мы можем сказать, что события - это, по сути, подмножество выборочного пространства.
Допустим, я беру монету из бумажника и подбрасываю ее. Эксперимент здесь подбрасывает монетку - каковы вероятные результаты?
Это может быть орел или решка - вы знаете, что один из них будет исходом, но не можете сказать, какой именно. Это означает, что есть вероятность двух событий - выпадения орла или выпадения решки.

Случайная переменная

В таких случаях, как упоминалось ранее, мы говорим, что этот эксперимент является случайным. Любая переменная, представляющая результат такого случайного эксперимента, называется случайной величиной. Но опять же, можете ли вы сказать, насколько вероятен случай головокружения? Или решки?

Теория вероятностей Интуиция

Поскольку подбрасывание орла является одним из событий в этих двух возможных сценариях - {орел или решка} - мы говорим, что вероятность того, что это событие окажется орлом, составляет 50%. В то же время можно сказать, что вероятность подбросить решку составляет 50%.

Если мы расширим эту логику, мы сможем предложить аналогичный подход, который можно будет применить к другим областям и проблемам. Разберем еще одну такую ​​проблему.

Скажем, у нас есть сумка. Мы помещаем в сумку по три шара, каждый разного цвета - {Синий O, Зеленый O, Красный O}.
Можем ли мы узнать, насколько велика вероятность вытащить красный шар O?
Следуя той же логике, что и в нашем эксперименте с подбрасыванием монеты, мы видим, что здесь у нас есть три возможных результата. Когда мы вытаскиваем мяч из сумки, мы получаем один из этих трех цветов. Следовательно, вероятность того, что мы получим красный, должна быть 1/3.

Равно вероятные события

Чтобы все это происходило таким образом, чтобы эта интуиция работала, обратите внимание, что все события одинаково вероятны. Это означает, что каждое событие имеет точно такую ​​же или точно равную вероятность наступления. У нас такая же вероятность получить решку, как и результат. Точно так же мы можем вытащить красный шар из мешка с такой же вероятностью, как и зеленый. Нет никакой предвзятости или чего-либо еще, что отдает предпочтение одному событию по сравнению с другим, все они имеют одинаковые шансы произойти, поэтому эти события называются событиями с одинаковой вероятностью.

Формальное определение

Для равновероятных событий, таких как описанные выше, формула вероятности утверждает, что для каждого события вероятность будет отношением количества способов, которыми может произойти конкретное событие, к общему количеству возможных исходов. Другими словами, вероятность того, что событие произойдет, - это отношение количества способов, которыми это конкретное событие может произойти, к общему количеству возможных исходов.

Теперь, если вы пройдетесь по ним еще раз, вы сможете заметить, что происходит следующее:

В качестве примера также посмотрите на это:

Свойства вероятности

  • Все вероятности находятся в диапазоне от 0 до 1 включительно.
  • Вероятность 0 означает, что событие невозможно, оно не может произойти.
  • Вероятность 1 означает, что событие обязательно произойдет.

Независимые события

С вероятностью два события считаются независимыми, если исход одного события не влияет на исход другого события. Примером может быть бросок пары кубиков - результат одного из этих кубиков не влияет на результат второго, и мы можем получить в общей сложности 36 различных возможных комбинаций результатов.

Но поговорите о том, чтобы вытащить карту из одной перетасованной колоды карт, и каждый ход изменяет вероятность. Допустим, мы хотим найти вероятность вытащить бубновый туз из хорошо перетасованной колоды карт. Вытаскивание этой карты с первой попытки имеет вероятность 1/52. Но предположим, что первый ход вытаскивает 7 пик - теперь для второй попытки вероятность вытащить бубновый туз имеет вероятность 1/51, что означает, что это не независимые события.

Совместная вероятность

Чтобы объяснить, что такое совместная вероятность, мы быстро рассмотрим еще одну интересную тему, теорию множеств - раздел математики, который имеет дело с наборами, которые, говоря простым языком, представляют собой совокупность объектов или элементов. Взгляните на эту диаграмму Венна:

Как мы видим, есть три круга A, B и C, которые пересекаются друг с другом, каждый что-то обозначает. Также есть странные маленькие символы в надписях пересекающихся областей - . В теории множеств эти символы обозначают пересечения. Если мы рассматриваем A, B и C как множества, ∩ будет обозначать те элементы внутри этих множеств, которые являются общими для множеств, которые находятся по обе стороны от этого символа. Например, предположим для примера:
A = {4, 22, 10, 19, 97}
B = {30, 3, 9, 19, 97}
Это будет означать, что A ∩ B = {19, 97}

Возьмем другой пример -
Событие A = Люди, которые следят за футболом (я имею в виду футбол, для моих дорогих американских читателей)
Событие B = Люди, которые следят за крикетом
Событие C = Люди, которые следят за F1

A ∩ B = Люди, которые следят и за футболом, и за крикетом
B ∩ C = Люди, которые следят за обоими, крикетом и F1
A ∩ C = Люди, которые следят за обоими, футболом и F1

A ∩ B ∩ C = Люди, которые следят за всеми этими видами спорта

Теперь вернемся к совместной вероятности, мы можем определить ее как вероятность одновременного возникновения двух или более событий. В нашем примере выше (A ∩ B) - это люди, которые одновременно любят футбол и крикет. Вероятность того, что случайно выбранному человеку нравятся и футбол, и крикет одновременно, будет P (A ∩ B). Если вы посмотрите на диаграмму Венна выше, этот человек будет найден в области, которая образовалась из-за пересечения событий A и B.

Совместная вероятность - это важная статистика, которую нужно измерить, и вы можете найти различные небольшие задачи, чтобы попрактиковаться в использовании карт. Эта концепция требует, чтобы два события происходили одновременно, и карты дают нам множество таких ситуаций, как:

  • Какова вероятность вытащить одновременно красную и 2-ю карту?
  • Какова вероятность вытащить карточку с нечетным номером и красного цвета?

Для независимых событий совместная вероятность - это просто произведение их предельных вероятностей. Итак, если события A и B независимы:

-> P(A ∩ B) = P(A) * P(B)

Условная возможность

Условная вероятность - это вероятность того, что событие произойдет, при условии, что мы знаем, что какое-то другое событие (я) уже произошло. Итак, если A и B - два события, условная вероятность может сказать нам вероятность того, что событие A произойдет, если событие B уже произошло. Погодите, это очень похоже на Joint Probability. Не волнуйтесь, мы читали о примере с броском кубика ранее, а теперь давайте вернемся к нему еще раз. У нас будет два события:

  • Событие А - выпадение числа 4
  • Событие B - выпадение четного числа

Исходя из того, что мы знаем, мы можем легко понять это:

Хорошо, если это два отдельных события, но что произойдет, если мы скажем, что мы точно знаем, что событие B уже произошло? Как вы думаете, вероятность получить 4 будет 1/6, если мы точно знаем, что на кубике уже выпало четное число?
Короткий ответ - НЕТ. Теперь, когда мы знаем, что наш результат определенно является четным числом, наш набор возможных результатов сокращается с {1, 2, 3, 4, 5, 6} до {2, 4, 6}. Это означает, что теперь вероятность выпадения 4 из этого сета должна быть 1/3 - так что наши шансы получить 4 в результате вдвое больше, чем раньше. Очевидно, что неразумно просто использовать предельную вероятность, которая игнорирует эту новую информацию о событии B. Если мы формализуем этот подход, мы бы достигли этого:

Вот так объединенная вероятность и предельная вероятность объединяются и образуют условную вероятность. Термин в левой части P (A / B) символизирует утверждение - Вероятность события A при условии, что событие B уже произошло. Например, давайте поговорим об облаках и дожде (и, может быть, о том, что они вызывают у вас?). Допустим, вы хотите узнать, насколько вероятно, что сегодня пойдет дождь с учетом облачности. Все, что нам нужно, это совместная вероятность появления дождя и облаков вместе с предельной вероятностью дождя, и мы можем это выяснить.

Давайте сделаем еще один пример задачи, чтобы понять это правильно. Здесь у нас есть диаграмма Венна для класса студентов, изучающих астрофизику и искусство (интересная группа студентов). Можем ли мы узнать, какова вероятность изучения искусств, если они изучают астрофизику?

По изображению мы можем вычислить эти вещи:

  • P (астрофизика) = 112/358
  • P (Искусство) = 240/358
  • P (Астрофизика ∩ Искусство) = 6/358

Теперь мы хотим найти вероятность того, что студент будет изучать искусство, учитывая, что он уже изучает астрофизику:

P (Искусство / Астрофизика) = P (Астрофизика ∩ Искусство) / P (Астрофизика)
= ›6/112

Это дает нам соотношение студентов, изучающих оба предмета, к тем, кто только изучает астрофизику, и именно так мы находим условную вероятность.

А теперь вернемся к нашей проблеме Монти Холла. Есть много решений этой проблемы, и, открыв страницу Википедии, вы узнаете их все.



Мы рассмотрим «простое решение». Посмотрите на эту таблицу, предполагая, что мы всегда выбираем дверь 1:

Как видите, простая табличная формулировка результатов показывает, что у вас больше шансов выиграть соревнование, если вы переключитесь - 2/3.
Давайте быстро рассмотрим этот пример. В первом сценарии наша Audi находится за дверью 3. Мы уже выбрали дверь 1, поэтому ведущий откроет дверь 2, чтобы увидеть козла. Теперь, если мы решим остаться с дверью 1, мы проиграем. Если Audi находится за дверью 2, ведущий откроет дверь 3, чтобы увидеть козла, переключение здесь снова принесет нам победу. Это означает, что 2/3 переключения приводят к выигрышу. Только в сценарии 3, если мы выберем остаться, мы выиграем - вероятность этого равна 1/3.

В этой статье я хотел дать вам краткое представление обо всех концепциях, связанных с вероятностью. Надеюсь, вам понравился пост, дайте мне знать, что вы думаете о содержании, в комментариях!
Приятного чтения!

Первоначально опубликовано на https://thedatascienceportal.com 3 октября 2020 г.