Слишком много статистики? Что ж, этот пост даст вам точный ответ на поставленный выше вопрос.
В этом посте я постараюсь осветить ключевые темы статистики для науки о данных.

Поскольку мы много раз читали повсюду, что 80% времени аналитик данных или специалист по данным посвящают предварительной обработке данных, чтобы построить точную модель машинного обучения. Нельзя недооценивать важность статистики. Если бы мы извлекли информацию из данных, мы, по сути, извлекли бы из данных скрытые возможности с помощью статистических знаний, которые очень важны в мире данных.

Я разделю эту историю на две части. Описательная статистика и логическая статистика.
В этом посте я попытаюсь больше сосредоточиться на описательной статистике.

Основное различие между описательной и выводной статистикой заключается в том, что с помощью описательной статистики мы можем попытаться описать информацию с помощью гистограммы, круговых чатов и т. д., тогда как в выводной статистике мы пытаемся сделать вывод из этих диаграмм и диаграмм, чтобы получить полезную информацию. что поможет в принятии решения.

Описательная статистика:

Существует три основных измерения описательной статистики.
1) Мера центральной тенденции,
2) Мера дисперсии и
3) Форма данных.

  1. Показатель центральной тенденции:

Это измерение в основном фокусируется на том, где именно находятся данные, а также обычно пытается выяснить центр распределения данных.
Они бывают 3 типов:
a) Среднее: Среднее также известно как среднее значение данных. По сути, это сумма всех элементов по количеству элементов в наборе данных.
Среднее значение = X1 + X2 + X3 +… + Xn / n
Например, если владелец продуктового магазина хочет чтобы узнать средние продажи за последний месяц, он может использовать среднее значение для получения ответа.
b) Медиана восходящем или нисходящем порядке. Он делит набор данных на две половины.
Если в наборе данных нечетное количество наблюдений, медиана – это самое среднее наблюдение, а если в наборе данных четное количество наблюдений, медиана – это среднее значение двух самых средних наблюдений.
Например, если тот же владелец продуктового магазина хочет узнать медианное значение продаж за одну неделю, он может использовать медиану.
c) Режим: режим — это произошло наблюдение в наборе данных. В наборе данных может быть несколько режимов.
Например, если продуктовый магазин хочет знать, одинаковы ли объемы продаж в какие-либо дни недели, он может использовать этот режим.

2) Мера рассеивания:

Дисперсия в основном предназначена для понимания того, насколько растянуты точки данных.
Существует несколько методов измерения этой дисперсии:
a) Диапазон: диапазон – это разница между максимальным и минимальным значениями. значение в наборе данных.

Мы не должны использовать диапазон, когда видим, что либо максимальное, либо минимальное значение является выбросом.
b) Дисперсия: Дисперсия измеряет, насколько далеко точки данных разбросаны от среднего значения. . Высокая дисперсия говорит нам о том, что точки данных разбросаны далеко от среднего значения, а небольшая дисперсия говорит нам о том, что точки данных ближе к среднему значению набора данных.

c) Стандартное отклонение: стандартное отклонение представляет собой не что иное, как квадратный корень из дисперсии.

d)Квартили. Квартили — это показатель, который делит набор данных на четыре равные части.

3)Форма данных:

Форма данных важна, потому что она может помочь в принятии решения о вероятности данных.
В основном существует два метода:
а) Симметричный: в этой форме данные распределяются одинаково по обеим сторонам.
b) Асимметрия: в большинстве случаев данные несимметричны, они могут быть смещены либо влево, либо вправо. т. е. с положительной или отрицательной асимметрией.
i) Положительная асимметрия: это случай, когда хвост на правой стороне кривой больше, чем на левой стороне. Для этих распределений среднее значение больше, чем мода.
ii) Отрицательный перекос: это случай, когда хвост на левой стороне кривой больше, чем на правой стороне. Для этих распределений среднее значение меньше моды.

Это все, что касается описательной статистики. Этот пост будет продолжен во второй части, где я буду объяснять логическую статистику для науки о данных.

Всем приятного чтения :)