Что такое статистика? Чем это полезно?

Статистика - это наука о сборе и анализе данных в больших количествах, особенно для вывода ожидаемых значений / интуитивных представлений населения от данных в репрезентативной выборке. Ожидаемые значения данных могут быть средними, средними, режимами, стандартными и т. Д. Я расскажу об этом подробнее в следующем разделе. В этой серии блогов я расскажу, как мы можем использовать статистический анализ для поиска закономерностей / тенденций в данных или подкрепить прогнозы модели машинного обучения путем вычисления вероятностей конкретных результатов.

Итак, каковы вышеупомянутые совокупность и выборка? Население в статистике означает все данные, из которых строится статистическая выборка. При проведении статистического анализа населения нет необходимости в оценке, поскольку у вас уже есть истинное население.

Выборка - это подмножество точек, взятых из совокупности для проведения статистического анализа для оценки ожидаемых значений совокупности с некоторой степенью ошибки.

Возникает естественный вопрос: «Зачем нам нужно использовать выборку для оценки ожидаемых значений совокупности, если они подвержены ошибкам? Почему бы не использовать истинную популяцию для проведения анализа? » - Данные о населении в целом огромны. Таким образом, его анализ требует больших вычислительных ресурсов и времени, не говоря уже о его стоимости. Чтобы оптимизировать этот процесс и снизить стоимость, вычислительную мощность и время, необходимое для анализа данных, мы выполняем его на выборочных данных.

Когда мы говорим о статистическом выводе, нам нужно обсудить вероятность. Вероятность означает, насколько вероятно, что что-то произойдет. Например, если вы бросаете несмещенный кубик, вероятность выпадения четного числа равна 1/2. Важным моментом в приведенном выше примере является то, что я упомянул, что кубик «несмещен». Итак, что это значит?

«Беспристрастный» означает, что вероятность любого события, рассчитанная на основе данных выборки, такая же, как вероятность этого конкретного события, рассчитанная на основе данных о населении. Если какое-либо из значений, рассчитанных на основе данных выборки, отличается от значений, рассчитанных на основе данных о популяции, то эксперимент / пользователь является «предвзятым».

Итак, как нам рассчитать вероятность определенного исхода события? Для этого мне нужно ввести еще одно понятие - «случайные величины».

Случайная величина - это переменная, значение которой неизвестно, и ей будут присвоены значения результатов эксперимента. Мы можем разделить результаты эксперимента на один из двух типов: он может быть либо непрерывным, как вес группы людей, либо незаметным, как цвет волос группы людей. Итак, существует два типа случайных величин: непрерывная RV и дискретная RV.

Функция, которая дает вероятность того, что дискретная случайная величина в точности равна некоторому значению, называется функцией массы вероятности (PMF).

Функция, которая выводит вероятность попадания случайной переменной в диапазон указанных значений, называется Функция плотности вероятности (PDF).

Есть два особых случая PDF: кумулятивная функция распределения (CDF) и функция выживания (SF).

CDF (x) дает вероятность того, что RV принимает значение меньше x. Напротив, SF (x) дает вероятность того, что RV принимает значение больше x.

Это конец части 1, всего лишь краткое введение в мир статистики. В следующем блоге я расскажу об условной вероятности, теореме Байеса, ее применении в диагностике рака, отношениях правдоподобия и ожидаемых значениях RV.

Использованная литература:



Модуль "Вероятность и статистика" в учебной программе AppliedAICourse



Пейте кофе и продолжайте учиться