Давайте продолжим наше путешествие с прошлого раза, и если вы пропустили:



Во второй части мы сосредоточимся на нескольких процедурах описательной статистики, упомянутых здесь:



Сначала давайте посмотрим на PROC BOXPLOT. Они помогают нам понять распределение данных, а также показывают выбросы.

Код SAS:

В Python есть много способов сделать это. Мы показываем два самых простых способа: 1. Использование пакета Pandas 2. Использование пакета Seaborn. Примечание: для достижения наших целей вам не нужны никакие пакеты, но мы изучаем простые способы перехода с SAS на Python. Почему пакеты? Пакеты или библиотеки содержат удобные функции и методы, которые предварительно написаны для нас, как и процедуры SAS. Я бы не рекомендовал создавать собственные пакеты, если вы новичок в Python.

Использование панд:

Использование Seaborn:

Во-вторых, давайте посмотрим на PROC CORR. Мы рассмотрим Пирсона, Спирмена и Кендалла. Напомним, что они означают. Пирсона — параметрическая мера связи между двумя непрерывными переменными; -1 указывает на сильную отрицательную связь, а +1 указывает на сильную положительную связь. Спирмен — непараметрическая мера связи, основанная на ранге, присвоенном значениям данных. Кендалл — также непараметрический показатель связи, но основанный на количестве совпадений и несоответствий в парных наблюдениях¹.

Код Python:

Наконец, давайте рассмотрим PROC UNIVARIATE.

Код Python:

Использованная литература:

  1. https://documentation.sas.com/?cdcId=pgmsascdc&cdcVersion=9.4_3.5&docsetId=procstat&docsetTarget=procstat_corr_examples01.htm&locale=en