Исследование данных в Python для программистов SAS (часть 2)

Давайте продолжим наше путешествие с прошлого раза, и если вы пропустили:

Исследование данных в Python для программистов SAS (часть 1)
Цель этой статьи — представить базовое исследование данных в Python для программистов SAS. Любая вторая работа в наши дни…medium.com

Во второй части мы сосредоточимся на нескольких процедурах описательной статистики, упомянутых здесь:

Процедуры описательной статистики SAS/STAT
Ниже представлены основные возможности процедур SAS/STAT, которые вычисляют описательную статистику: BOXPLOT…support.sas.com

Сначала давайте посмотрим на PROC BOXPLOT. Они помогают нам понять распределение данных, а также показывают выбросы.

Код SAS:

В Python есть много способов сделать это. Мы показываем два самых простых способа: 1. Использование пакета Pandas 2. Использование пакета Seaborn. Примечание: для достижения наших целей вам не нужны никакие пакеты, но мы изучаем простые способы перехода с SAS на Python. Почему пакеты? Пакеты или библиотеки содержат удобные функции и методы, которые предварительно написаны для нас, как и процедуры SAS. Я бы не рекомендовал создавать собственные пакеты, если вы новичок в Python.

Использование панд:

Использование Seaborn:

Во-вторых, давайте посмотрим на PROC CORR. Мы рассмотрим Пирсона, Спирмена и Кендалла. Напомним, что они означают. Пирсона — параметрическая мера связи между двумя непрерывными переменными; -1 указывает на сильную отрицательную связь, а +1 указывает на сильную положительную связь. Спирмен — непараметрическая мера связи, основанная на ранге, присвоенном значениям данных. Кендалл — также непараметрический показатель связи, но основанный на количестве совпадений и несоответствий в парных наблюдениях¹.