Как мы описываем данные?

Описательный происходит от слова «описывать», поэтому обычно означает что-то описывать. Описательная статистика по существу описывает данные с помощью таких методов, как графическое представление, меры центральной тенденции и меры изменчивости. Он обобщает данные осмысленным образом, что позволяет нам делать выводы из них.

Типы данных

Данные могут носить как количественный, так и качественный характер. Количественные данные представлены в числовой форме, которая может быть дискретной, включая конечные числовые значения, или непрерывной, которая также принимает дробные значения помимо конечных значений. Например, количество девочек в классе может принимать только конечные значения, поэтому это дискретная переменная, а стоимость продукта — непрерывная переменная.

Качественные данные не являются числовыми и могут быть основаны на таких методах, как интервью, оценки на экзамене и т. д. Они могут быть номинальными и порядковыми, где номинальные данные не содержат какого-либо порядка, такого как пол, семейное положение, в то время как порядковые данные имеют определенный порядок, такой как рейтинг фильма, размер рубашки.

Как мы описываем Данные?

Чтобы описать и проанализировать данные, нам нужно знать природу данных, поскольку тип данных влияет на тип статистического анализа, который может быть выполнен на них.

Распределение частоты

Он измеряет, сколько раз наблюдение встречается в данных. Например, качественные данные, которые содержат пол учащихся в классе, подходящим методом для описания будет частота мужчин и женщин. Или для данных о возрасте людей нам может понадобиться узнать частоту различных возрастных групп, для которых мы могли бы классифицировать данные в непрерывные данные, чтобы построить частотное распределение, как показано ниже.

Относительное частотное распределение

Иногда частота не дает нам четкой картины данных. Скажем, вы хотите знать, из какого штата большинство студентов записались на онлайн-программу по науке о данных. Абсолютное число может дать расплывчатое представление, но если вы разделите абсолютное число на общее количество зачисленных студентов, вы получите то, что мы называем относительной частотой. Поэтому, если вы читаете, что 200 студентов поступили из города Бангалор, вы не знаете, много это или нет. Но если вам скажут, что относительная частота составляет 0,8, что означает, что 80% студентов родом из Бангалора, вы можете понять, что студенты из этого города гораздо более склонны к науке о данных, чем из других городов.

Гистограмма

Мы можем визуализировать частотное распределение в виде гистограммы, на которой представлены категориальные данные с высотами или столбцами, пропорциональными значениям, которые они представляют. Мы также можем построить сгруппированную гистограмму частот для сравнения различных наборов данных, скажем, за разные годы. Это может помочь нам понять, есть ли закономерности в данных.

Гистограмма

Иногда лучше представить данные, взяв диапазон значений, а не каждое отдельное значение. Скажем, мы хотим увидеть скорость, с которой машины едут по городу. Было бы бессмысленно отображать каждую единицу скорости, скажем, 60,2 км/ч или 74,3 км/ч. Поэтому мы скорее используем диапазон, например 50–60 км/ч и т. д., для построения гистограммы, которая также использует столбцы для графического представления данных, но здесь каждая группа столбцов представляет собой диапазон. Более высокие столбцы показывают, что в этот диапазон попадает больше наблюдений. Мы можем получить представление о форме и распространении непрерывных данных через гистограмму. Допустим, мы хотим понять изменения в ВВП конкретной страны, скажем, Индии за эти годы. Приведенная ниже гистограмма показывает, что ВВП Индии постоянно увеличивался в последнее десятилетие.

Обратите внимание, что каждая полоса представляет собой диапазон, отображающий год, например, 2010 год охватывает данные с 10 января по 10 декабря. Поскольку он представляет собой диапазон, он скрывает такие детали, как ВВП за конкретный месяц. При построении гистограммы необходимо выбрать соответствующий размер ячейки (который также называется интервалом класса). Например, здесь размер бина — это год, мы могли бы также выбрать квартал или месяц. Чем больше размер бина, тем меньше будут бины и тем менее гранулярным будет анализ, поскольку он будет представлять меньше деталей.

Таким образом, 5-летний диапазон может не дать более глубокого понимания того, как ВВП изменился за период, скажем, 10 лет. В то время как месячный диапазон будет содержать больше деталей, но может быть громоздким для анализа. Однако, если у нас есть данные, скажем, диапазон зарплат инженеров, и мы хотим увидеть, сколько инженеров попадает в эту группу. В этом случае корзины представляют зарплату, которая является огромным числом, поэтому в этом случае имеет смысл иметь больший размер корзины, скажем, 50 000 или 100 000 долларов. Вы можете построить несколько графиков, поэкспериментировав с параметрами, чтобы увидеть, какой из них дает лучший анализ. Идеальный размер корзины не скрывает слишком много деталей и не раскрывает слишком много деталей.

Теперь предположим, что мы хотим знать, в какой стране больше безработица. На оси X будут перечислены страны и абсолютное количество безработных; однако абсолютное число зависит и от населения страны. Подобно тому, как Китай и Индия являются самыми густонаселенными, и поэтому абсолютное число ночей в них намного больше. Поэтому вместо этого мы могли бы взять процент безработных, который дал бы нам долю безработных в стране, которая будет более значимой при сравнении безработицы с другими странами. Как аналитик, попробуйте проанализировать гистограмму и посмотреть, есть ли в ней тренды. Проверьте, в каком регионе данные сконцентрированы больше или в каком регионе значений практически нет. Проверьте асимметрию в данных, независимо от того, смещены ли они влево или вправо, т. е. больше столбцов направлено влево или вправо соответственно, что может иметь важное значение при принятии выводов.

Линейный график

График удержания — это графическое представление для понимания формы или тенденции распределения. Он строится путем соединения средних точек столбцов гистограммы и их соединения линиями.

Преимущество использования линейного графика по сравнению с гистограммой заключается в том, что на одном и том же графике легко сравнивать разные распределения, в то время как использование гистограммы может быть довольно перегруженным. Графическое представление может помочь аналитику принять решение, например, включать переменную в алгоритм машинного обучения или нет. Как и на приведенном ниже графике, показано сравнение линейных графиков успеваемости учащихся до и после теста. Это показывает, что меньшее количество студентов получили низкие оценки и большее количество студентов получили более высокие оценки, если их тестирование проводилось ранее, чем группа студентов, для которых тестирование не проводилось. Это может означать, что предварительное проведение теста может стать важным фактором повышения успеваемости в классе.

Мы также можем построить линейный график, показывающий кумулятивные частоты. В основном частоты или относительные частоты добавляются слева направо, чтобы получить кумулятивные частоты. Это может быть очень полезно при выполнении некоторого анализа, который не может быть выполнен только по частотам, например, если мы сравним баллы по двум разделам, кумулятивная частота может показать, что 173, то есть 16% учащихся, набрали меньше или равно 75.

Графики рассеяния

До сих пор мы видели, как мы можем описать переменную, используя количество раз, которое она встречается в данных. Но что, если мы хотим описать две переменные, чтобы проверить, есть ли между ними связь. Точечная диаграмма — очень простой и важный способ сделать это. Он отображает значения двух разных переменных с помощью точек, где каждая точка представляет конкретную точку данных. Точечная диаграмма может дать нам представление о том, есть ли закономерности в данных; положительная тенденция означает, что по мере увеличения переменной x переменная y также увеличивается, и наоборот. Если данные распределены неравномерно, это может означать, что переменные не связаны, поэтому мы можем исключить их из нашего алгоритма машинного обучения.

На некоторых графиках переменная может быть настолько положительно связана, что это будет выглядеть почти как линейная зависимость. В некоторых случаях он может быть экспоненциальным, что означает, что переменная y быстро увеличивается с увеличением x. Диаграммы рассеяния могут быть очень важны для получения информации, которая позволит нам принимать важные решения. Допустим, мы строим точечный график площади сельскохозяйственных угодий и производства продовольственного зерна в определенном регионе. Как правило, это дает нам положительное отношение, и если есть крайние точки данных, то есть земли, которые больше по площади, но имеют меньшую продуктивность, это может означать, что эти земельные площади не используются на полную мощность, и, следовательно, могут быть предприняты необходимые действия. принятые в связи с этим.

Это были некоторые из способов, с помощью которых мы можем описать данные. Я надеюсь, что вы нашли статью полезной. Спасибо, что прочитали!

Курс по науке о данных — https://padhai.onefourthlabs.in/courses/data-science

Как мы описываем данные?

Типы данных

Как мы описываем Данные?

Распределение частоты

Относительное частотное распределение

Гистограмма

Гистограмма

Линейный график

Графики рассеяния

Вопросы по теме