ОСНОВНЫЕ ПРОБНСТАТЫ 4 МЛ

Вероятность против статистики

Разница между вероятностью и статистикой, а также анализ статистических подходов.

Мы часто видим слова вероятность и статистика, сложенные вместе, но относятся ли они к одному и тому же? Это статья, продолжающая проект Essential probNstats 4 ML, в которой я объясню различия между этими двумя терминами, почему они связаны, а также существующие статистические подходы.

Вероятность против статистики

Теория вероятностей - это раздел математики, связанный с вероятностью. Вероятность - это числовое описание вероятности события. Часто, говоря «вероятность», мы имеем в виду теорию вероятности, а не только число. Это понятно по контексту предложения.

Статистика - это раздел математики, который касается сбора, организации, отображения, анализа, интерпретации и представления данных.

Связь между ними заключается в том, что в статистике мы применяем вероятность (теорию вероятностей), чтобы делать выводы на основе данных.

Чтобы сделать определение более ясным, вот два их примера:

Пример вероятности:

У вас есть честная монета (равная вероятность выпадения орла или решки). Вы бросите его 100 раз. Какова вероятность выпадения 60 или более голов? Мы можем получить только один ответ из-за стандартной стратегии вычислений.

Пример статистики:

У вас есть монета неизвестного происхождения. Чтобы выяснить, справедливо ли это, вы подбрасываете его 100 раз и подсчитываете количество голов. Допустим, вы насчитаете 60 голов. Ваша задача как статистика - сделать вывод (вывод) из этих данных. В этой ситуации разные статистики могут сделать разные выводы, потому что они могут использовать разные формы вывода или могут использовать разные методы для прогнозирования вероятности (например, выпадение орлов).

Основная терминология вероятности

Прежде чем мы продолжим, давайте определим некоторую базовую терминологию для определения вероятности, которая будет необходима:

Эксперимент (или испытание) - это любая процедура, которая может повторяться бесконечно и имеет четко определенный набор возможных результатов.

Пробел - это набор всех возможных результатов эксперимента.

событие - это набор результатов эксперимента.

События могут быть:

  • Независимые, что означает, что на них не влияют другие события. Например, если вы подбрасываете честную монету, вероятность того, что она упадет «орлом», равна 1/2, несмотря ни на что.
  • Зависимые, а именно, на них влияют другие события. Например, по мере того, как мы удаляем карты из колоды, вероятность того, что мы выберем короля, становится все выше и выше.
  • Взаимоисключающие, то есть они не могут происходить одновременно. Например. нельзя одновременно поворачивать налево и направо.

Но как разные статистики получают разные результаты на основе вероятности?

Для решения проблемы используются две статистические интерпретации: частотный и байесовский.

Специалисты по частотам рассматривают вероятность как меру частоты различных результатов эксперимента. Например, если у нас есть честная монета (вероятность выпадения орла 50%), мы ожидаем, что половина экспериментов будет выпадать орлом.

Байесовцы рассматривают вероятность как абстрактное понятие, которое измеряет уровень знаний или степень веры в данное предположение. Это означает, что вероятность имеет диапазон значений, которые могут быть истинными, а не одно. Этот подход будет принят нами, специалистами по обработке данных или инженерами по машинному обучению, для использования в таких системах, как распознавание речи или лиц.

Основные определения множеств

Прежде чем мы продолжим, нам потребуется некоторое базовое понимание наборов:

Набор (S) - это набор элементов.

Пустой набор обозначается как и не содержит элементов.

Подмножество (A) набора (S) - это группа элементов, которые существуют в этом наборе. Он представлен как A⊂S.

Дополнение к A в S - это набор элементов S, которые не в A. Он представлен как Aᶜ или S - A.

Объединение элементов A и B - это набор всех элементов в A или B (или в обоих). Он представлен как A ∪ B.

Пересечение A и B - это набор всех элементов как в A, так и в B. Он представлен как A ∩ B.

Два или более подмножества не пересекаются, если у них нет общих элементов и их пересечение равно .

Разница двух или более подмножеств, например A и B - это набор элементов в A, которых нет в B. Мы пишем это как A-B.

Наконец, есть два важных закона, которые объединяют пересечение, союз и дополнение. Они называются законами ДеМоргана и показаны ниже:

  • (A ∪ B)ᶜ= Aᶜ ∩ Bᶜ
  • (A ∩ B)ᶜ= Aᶜ ∪ Bᶜ

Пример вычисления вероятности

Прежде чем мы перейдем к проблеме, нам нужно узнать несколько важных концепций вероятности:

  • Правило продукта: если есть а способы сделать что-то и b сделать что-то еще, то есть · b способов выполнения обоих действий. Например, если в олимпийском виде спорта участвуют 7 участников, существует 7 • 6 • 5 = 210 способов награждения медалями (7 человек - золото, 6 - серебро и 5 - бронза).
  • Перестановка - это порядок размещения элементов набора. Например, набор {a, b, c} имеет шесть перестановок: abc, acb, bac, bca, cab, cba. Количество перестановок этого набора также можно найти по правилу произведения: 3 • 2 • 1 = 6 перестановок. В общем, количество перестановок набора является факториалом его длины (в нашем случае 3!).
  • Комбинация набора - это выбор элементов из этого набора таким образом, чтобы не было дубликатов элементов с разным порядком. Итак, все возможные 2 комбинации элементов из предыдущего набора: {a, b}, {b, c}, {c, a}

Мы также можем вычислить перестановки и комбинации k элементов набора. Общие формулы для вычисления этих двух в любом случае:

ₙPₖ = количество перестановок (списков) k различных элементов из набора размера n

ₙCₖ = количество комбинаций (подмножеств) k элементов из набора размера n

Наконец, на этом этапе мы готовы приступить к проблеме!

Предположим, у нас есть честная монета. Какова вероятность выпадения ровно 3 решек за 10 бросков?

Во-первых, мы должны подсчитать количество способов получить 3 решки в последовательности из 10 флипов. Это можно сделать с помощью формулы «комбинации»:

У каждого из 10 флипов есть 2 возможных результата, поэтому по правилу произведения мы имеем 2 * 2 * 2… = 2¹⁰ = 1024 последовательности из 10 флипов. Теперь мы можем рассчитать вероятность выпадения 3 решек в 10 флипах, разделив количество комбинаций на общее количество последовательностей: 120/1024 ≈ 0,117.

Заключение

Мы узнали о разнице между вероятностью и статистикой. Мы также узнали, что статистики могут получать разные результаты в зависимости от формы вывода или подхода к вычислению вероятностей. Наконец, мы узнали, как вычислить вероятность проблемы с равновероятными исходами.

использованная литература

Джереми Орлофф и Джонатан Блум. 18.05 Введение в вероятность и статистику. Весна 2014 г. Массачусетский технологический институт: MIT OpenCourseWare, https://ocw.mit.edu. Лицензия: Creative Commons BY-NC-SA.

Пирс, Род. (6 октября 2017 г.). Вероятность: типы событий. Математика - это весело. Получено 14 декабря 2019 г. с сайта http://www.mathsisfun.com/data/probability-events-types.html.

Авторы Википедии. (2019, 2 ноября). Эксперимент (теория вероятностей). В Википедии, Свободной энциклопедии. Получено в 20:24, 14 декабря 2019 г., из https://en.wikipedia.org/w/index.php?title=Experiment_(probability_theory)&oldid=924254710

Авторы Википедии. (2019, 13 декабря). Теория вероятности. В Википедии, Свободной энциклопедии. Получено в 10:59, 15 декабря 2019 г., с сайта https://en.wikipedia.org/w/index.php?title=Probability_theory&oldid=930545712.

Скиена, Стивен. (6 апреля 2001 г.). Вероятность против статистики. Получено 15 декабря 2019 г. из https://www3.cs.stonybrook.edu/~skiena/jaialai/excerpts/node12.html.

Авторы Википедии. (2019, 4 декабря). Статистика. В Википедии, Свободной энциклопедии. Получено 11:04, 15 декабря 2019 г., с сайта https://en.wikipedia.org/w/index.php?title=Statistics&oldid=929190255.

Авторы Википедии. (2019, 5 октября). Правило продукта. В Википедии, Свободной энциклопедии. Получено 18:20, 15 декабря 2019 г., с сайта https://en.wikipedia.org/w/index.php?title=Rule_of_product&oldid=919664907.