Первым шагом каждого статистического анализа, который вы выполняете, является определение того, являются ли данные, с которыми вы имеете дело, данными генеральной совокупности или выборочными данными.

Население

Популяция представляет собой совокупность всех элементов, представляющих интерес для нашего исследования. Обозначается заглавной буквой «N».

Числа, которые мы получаем при использовании совокупности, называются параметрами. Параметр – это значение, которое относится к совокупности.

Образец

Выборка – это подмножество совокупности. Обозначается строчной буквой «н».

Цифры, которые мы получаем при использовании выборки, называются статистикой. Статистика – это значение, относящееся к выборке.

Размер выборки всегда меньше, чем общий размер генеральной совокупности.

Статистические тесты обычно основаны на выборочных данных. Выборка должна быть случайной и репрезентативной, чтобы понимание было точным.

Описательная статистика

Описательная статистика занимается сбором, организацией, обобщением и представлением данных.

Типы данных

Мы классифицируем данные двумя способами:

1] В зависимости от типа

Категориальные данные представляют группы или категории. Категориальные данные могут принимать числовые значения (например, «1» означает «да» и «2» означает «нет»), но эти числа не имеют математического значения. Их нельзя ни сложить, ни вычесть друг из друга.

Числовые данные представляют числа. Числовые данные делятся на две группы — дискретные и непрерывные. Дискретные данные обычно могут быть подсчитаны в конечной материи. Непрерывные данные бесконечны и их невозможно сосчитать.

2] В зависимости от уровня измерения

То, как измеряется переменная, называется уровнем измерения. Она также известна как шкала измерения.

Имеется 4 шкалы измерения: номинальная, порядковая, интервальная и относительная.

Эти 4 шкалы измерения помогают нам выбрать правильный статистический тест и метод визуализации, а также направлять наш анализ данных.

4 уровня измерения

Номинальные данные могут быть только классифицированы.

Порядковый — данные можно классифицировать и ранжировать.

Интервал. Данные могут быть классифицированы, ранжированы и равномерно распределены.

Соотношение. Данные могут быть классифицированы, ранжированы, равномерно распределены и имеют натуральный нуль.

Уровни, на которых вы измеряете переменную, определяют, как вы можете анализировать свои данные.

Самый низкий уровень – это номинальный уровень. Самый высокий уровень — это уровень Ratio.

4 уровня измерения являются кумулятивными. т. е. каждый из них берет свойства более низких уровней и добавляет новые свойства.

Номинальный

Номинальная шкала — это 1-й уровень шкалы измерений, в котором числа служат метками или метками для классификации или идентификации объектов.

Номинальная шкала обычно имеет дело с нечисловыми переменными или числами, которые не имеют никакого значения.

Номинальные шкалы используются для маркировки переменных без какого-либо количественного значения.

В номинальной шкале порядок не имеет значения.

Пример -

Пол: 1 → мужской, 2 → женский

Мы также можем назначить like- 2 → Мужской, 1 → Женский, потому что порядок меток не имеет значения.

Дихотомический/бинарный

Номинальная переменная, которая имеет только две категории, известна как дихотомическая/бинарная переменная.

Порядковый номер

Порядковая шкала является 2-м уровнем измерения. Порядковые данные — это тип данных, в которых значения следуют естественному порядку.

"Порядковый номер" означает "порядок"

В статистике группа порядковых чисел указывает порядковые данные, а группа порядковых данных представлены с использованием порядковой шкалы.

Основное различие между номинальными и порядковыми данными заключается в том, что порядковые имеют порядок категорий, а номинальные — нет.

Порядковая шкала сообщает ранжирование и порядок данных, фактически не устанавливая степень различия между ними.

Пример -

Фирма собрала данные об удовлетворенности потребителей предоставляемыми ею услугами:

1 →очень доволен, 2 →удовлетворен, 3 →нейтрально, 4 →недоволен, 5 →крайне недоволен

Здесь у нас есть 5 категорий, и наша переменная — это уровень удовлетворенности. Здесь важен порядок, если вы измените порядок категорий, то изменится и их значение.

Здесь расстояние между любыми двумя точками не имеет значения. Потому что мы не можем найти степень удовлетворенности одного потребителя по сравнению с другим потребителем.

Интервал

Интервальная шкала является 3-м уровнем измерения. Интервальная шкала представляет собой шкалу количественных измерений.

Интервальные данные измеряются по числовой шкале, которая имеет одинаковое расстояние между соседними значениями. Эти расстояния называются интервалами.

На интервальной шкале нет истинного нуля, что отличает ее от шкалы отношений.

На интервальной шкале ноль — это произвольная точка, а не полное отсутствие переменной. Интервальные данные могут быть как дискретными, так и непрерывными.

Пример - температура по Цельсию

Разница между 60 и 50 градусами составляет измеримые 10 градусов, как и разница между 80 и 70 градусами.

Здесь разница между каждым значением одинакова.

Соотношение

Шкала отношений представляет собой 4-й уровень измерения, который является количественным.

Шкала отношений имеет истинный ноль. т. е. ноль имеет значимое значение.

Шкала отношений из-за ее истинной нулевой точки не имеет отрицательного числа.

Пример-

Одним из наиболее распространенных примеров шкалы отношений является шкала Кельвина. Шкала Кельвина имеет истинную нулевую точку. Это означает, что при 40 градусах не в два раза горячее, чем 20 градусов по шкале Цельсия. По шкале Кельвина 40К вдвое горячее 20К из-за наличия истинного нуля.

Краткое содержание

Спасибо, что прочитали эту статью! Оставьте комментарий ниже, если у вас есть какие-либо вопросы. Не забудьте подписаться на Ninad Walanj, чтобы получать уведомления о последних статьях.

Вы можете связаться со мной на LinkedIn, GitHub или на сайте Medium.com. Посетите мой веб-сайт — Нинад Валанж.