Пытайте данные, и они во всем признаются – Рональд Коуз

Введение в описательную статистику

Прежде чем перейти к пониманию описательной статистики. давайте сначала попробуем понять статистику.

Определить статистику. Статистика — это раздел математики, собирающий, систематизирующий и описывающий данные.

Типы статистики:

1. Описательная статистика

2. Логическая статистика

В этом блоге мы будем разбираться в описательной статистике, а в следующих блогах будем изучать логическую статистику.

Описательная статистика используется для сбора, представления и описания данных, а также для того, чтобы сделать их более понятными.

В количественном исследовании после сбора данных первым шагом статистического анализа является описание характеристик ответов, таких как среднее значение одной переменной (например, зарплата) или отношение между двумя переменными (например, рост и вес).

Описательная статистика полезна для обобщения данных, а понимание данных является важным аспектом любой статистической задачи.

Ключевые моменты описательной статистики:

1. Не заключайте данные.

2. Не пытайтесь делать прогнозы на основе доступных данных.

3. Не пытайтесь подогнать модель под данные.

Примечание. Описательная статистика является важным начальным шагом, поскольку без описательной статистики мы не можем понять или обобщить данные. Мы не можем провести какой-либо анализ. если мы не понимаем данные, мы не будем работать хорошо.

Откуда вы знаете, что все записи наблюдений верны?

1. Обнаружение выбросов

2. Спланируйте, как подготовить данные

3. Предшественник функции «Инжиниринг»

4. Визуализация важна для описательной статистики, чтобы иметь хорошее представление о данных.

Три вида описательной статистики зависят от того, сколько задействовано переменных.

1.Одномерный: опишите данные/обобщите данные одной переменной.

2. Двойная переменная: опишите данные/обобщите данные двух переменных.

3.Многомерный: опишите данные/обобщите данные более чем двух переменных.

Одномерный включает:

1. Частота

2. Мера центральной тенденции

3. Мера рассеивания

Двухвариантный вариант состоит из:

1. Ковариация

2. Корреляция

Многовариантность состоит из:

1. Ковариационная матрица

2. Корреляционная матрица:

В этой статье мы изучим ясное и подробное понимание меры центральной тенденции

Мера центральной тенденции — это точка, вокруг которой сосредоточены ваши данные.

Меры центральной тенденции:

1. Среднее

2. Медиана

3. Режим

Среднее/среднее арифметическое: среднее значение группы чисел. их обычно называют «средними».

2. Применимо для интервальных и относительных данных

3. Не распространяется на порядковые и номинальные данные

где,

  • x̄ = среднее значение набора данных.
  • x = частота отдельных данных
  • N = сумма частот

Пример 1. Ниже указан возраст группы из 10 человек. А = {50, 32, 51, 42, 41, 49, 60, 20, 30, 35}. Рассчитайте средний возраст группы.

Решение:

Общее количество человек в группе, n = 10

x1= 50, x2 = 32, x3 = 51, …, xnxn = 35

Мы будем использовать приведенную ниже формулу.

x̄ = (x1,x2,x3,…,xn)/n(x1,x2,x3,…,xn)/n

Средний возраст группы = (50 + 32 + 51+ 42+ 41 + 49 +60 + 20 + 30 + 35)/10 = 410/10 = 41

Ответ: средний возраст группы = 41 год

Примечание. На среднее значение влияют выбросы.

Медиана – это просто среднее значение набора данных.

1. Применимо к интервальным, порядковым и относительным данным.

2. Не применимо для номинальных данных

Например, в наборе данных {4, 13, 1, 24, 11, 26, 37} порядок сортировки становится {1, 4, 11, 13, 24, 26, 37}. Медиана — это число в середине {1, 4, 11, 13, 24, 26, 37}, которое в данном случае равно 13, поскольку с каждой стороны есть три числа.

Чтобы найти медианное значение в списке с четным количеством чисел, нужно определить среднюю пару, сложить их и разделить на два. Опять же, расположите числа в порядке от меньшего к большему.

Например, в наборе данных {3, 13, 2, 34, 11, 17, 27, 47} порядок сортировки становится {2, 3, 11, 13, 17, 27, 34, 47}. Медиана – это среднее двух чисел в середине {2, 3, 11, 13,17,2634, 47}, что в данном случае равно пятнадцати {(13 + 17) ÷ 2 = 15}.

Примечание. Медиана не зависит от выбросов.

Мода. Мода — это наиболее часто встречающееся значение в наборе данных.

Применимо для всех уровней измерения данных (номинальное, порядковое, отношение и интервал)

Бимодальный: набор данных с двумя режимами.

Многорежимный: наборы данных, содержащие более двух режимов.

Пример. Найдите режим 3, 6, 6, 16, 27, 37, 48.

режим 6.

Мера центральной тенденции поможет нам найти середину или среднее значение набора данных. Если большая часть данных расположена в центре и дисперсия очень мала, она образует кривую нормального распределения.

Это все для понимания статистики! Следите за появлением новых блогов, в которых более подробно рассматриваются конкретные темы.

Если вам нравится моя работа и вы хотите быть в курсе последних публикаций или хотите связаться со мной, меня можно найти на Medium по адресу SURAJ GUSAIN — спасибо!

Если вам понравился этот пост, немного дополнительной мотивации будет полезно, если вы похлопаете этому посту 👏. Я всегда открыт для ваших вопросов и предложений. Вы можете поделиться этим на Facebook, Twitter и Linkedin, так что кто-то в этом может наткнуться.

Вы можете связаться со мной по адресу:

LinkedIn: https://www.linkedin.com/in/suraj020/

Гитхаб: https://github.com/SurajGusain0007

Твиттер: https://twitter.com/surajgusain786

Счастливого обучения :)