Люди - зрительные животные. Таким образом, EDA играет важную роль в вашем понимании данных и принятии лучших решений.
Этот курс EDA R, разработанный на основе курса, который я преподавал здесь, поможет вам понять данные с визуальной точки зрения, что побудит вас сделать более точные данные. решения. Это всегда первый шаг к пониманию данных.
EDA не только относится к визуализации, но и является ее неотъемлемой частью. Это приключение с данными. EDA поможет вам задать правильный вопрос. Каждый ваш статистический анализ начинается с вопроса, который вы задаете себе. EDA дает вам фору, если вы не собирали данные самостоятельно и, скорее всего, не обладаете знаниями в предметной области по этой теме.
Давайте начнем.
Есть две широкие категории данных:
Количественный (числовой)
Качественный (категориальный / факторный)
Наш Путь обучения в EDA будет продвигаться следующим образом.
Содержание
Q_ UEDA - Одномерный количественный EDA
Ql_ UEDA - качественный одномерный EDA
Q_Q l_EDA - Качественный и качественный EDA
Ql_Ql_ EDA - количественный и качественный EDA
Q_Q_ EDA - количественный и количественный EDA
Данные
Мы будем использовать данные ais из пакета DAAG в R. Вы можете найти подробную информацию о данных здесь.
install.packages("DAAG") library(DAAG) data = ais head(data, n = 3)
str(data)
Переменные
(Нас интересуют только пять в демонстрационных целях)
- hg (концентрация гемоглобина, в г на декалитр)
- ht (высота, см)
- вес (вес, кг)
- пол (фактор с уровнями
f
m)
- спорт (фактор с уровнями
B_Ball
Field
Gym
Netball
Row
Swim
T_400m
T_Sprnt
Tennis
W_Polo)
Q_UEDA - Одномерный количественный EDA
Наши одномерные количественные данные: hg (концентрация гемоглобина в граммах на декалитр)
1. Резюме
summary(data$hg)
2. Коробчатая диаграмма
boxplot(data$hg, main = toupper("Boxplot of Hemaglobin concentration"), ylab = "Hemaglobin concentration", col = "red")
3. Гистограмма
hist(data$hg, xlab = "Hemaglobin concentration", probability = TRUE, , main = "Histogram of Hemaglobin concentration")
4. Плотность ядра
d <- density(data$hg) plot(d, main = "Kernel density of Hemaglobin concentration", xlab = "Hemaglobin concentration") polygon(d, col = "red", border = "blue")
Ql_UEDA - Качественный одномерный EDA
Наши однофакторные качественные данные: спорт (фактор с уровнями
B_Ball
Field
Gym
Netball
Row
Swim
T_400m
T_Sprnt
Tennis
W_Polo
)
1. Таблица распределения частот
table(data$sport)
2. Вертикальная гистограмма
barplot(table(data$sport), main="Count of participants in different sports for study", xlab="Sports",ylab="Count", border="red", col="blue", density=10)
3. Горизонтальный график
barplot(table(data$sport), main="Count of participants in different sports for study", xlab="Sports",ylab="Count", col = "darkred", horiz = TRUE)
4. Круговая диаграмма
pie(table(data$sport), labels = levels(data$sport))
Q_Ql_EDA - Качественный и качественный EDA
Наши качественные и качественные данные:
пол (фактор с уровнями
f
m
)
спорт (фактор с уровнями
B_Ball
Field
Gym
Netball
Row
Swim
T_400m
T_Sprnt
Tennis
W_Polo
)
Центральная идея:
Мы сравним соответствующий Одномерный EDA.
- Таблица частот
- BarPlot
1. Таблица непредвиденных обстоятельств (сравнение таблиц частот)
sex_vs_sport = data[,12:13] table(sex_vs_sport) xtabs(~ sex + sport, sex_vs_sport) # This code chunk will also work. This chunk will give an insight to multiple categorical variables.
2. Вертикальная гистограмма (сравнение гистограмм)
barplot(table(sex_vs_sport), main = "Sports Participation Distribution by Sex", xlab = "Sport", col = c("red","green") ) legend("topleft", c("Female","Male"), fill = c("red","green") )
3. Рядом с гистограммой (сравнение гистограмм)
barplot(table(sex_vs_sport), main = "Sports Participation Distribution by Sex", xlab = "Sport", col = c("red","green"), beside = TRUE) legend("topleft", c("Female","Male"), fill = c("red","green") )
Ql_Ql_EDA - количественный и качественный EDA
Наши количественные и качественные данные:
hg (концентрация гемоглобина, в г на декалитр)
спорт (фактор с уровнями
B_Ball
Field
Gym
Netball
Row
Swim
T_400m
T_Sprnt
Tennis
W_Polo
)
пол (фактор с уровнями
f
m
)
Центральная идея:
Мы сравним соответствующий Одномерный EDA с Качественными данными.
- Сводное сравнение
- Сравнение коробчатых диаграмм
- Сравнение плотности ядра
1. Краткое сравнение
hg_vs_sport = data[,c(4,13)] hg_vs_sex = data[,c(4,12)] by(hg_vs_sex, hg_vs_sex$sex, summary)
2. Сравнение коробчатых диаграмм
boxplot(hg~sport, data=data, main="Different boxplots for each sport", xlab="Sport", ylab="Hemaglobin concentration", col="orange", border="brown" )
3.1 Сравнение плотности ядра (для спорта)
library(ggplot2) ggplot(hg_vs_sport, aes(hg, fill = sport)) + geom_density(alpha = 0.2)
3.2 Сравнение плотности ядра (для пола)
library(ggplot2) ggplot(hg_vs_sex, aes(hg, fill = sex)) + geom_density(alpha = 0.2)
Q_Q_EDA - количественный и количественный EDA
Наши количественные и количественные данные:
ht (высота, см)
вес (вес, кг)
1. Сюжет
plot(data$wt ~ data$ht , data, xlab="Height", ylab="Weight", main="Scatter Plot")
2. Точечная диаграмма
library(car) scatterplot(data$wt ~ data$ht , data, ylab="Weight", xlab="Height", main="Enhanced Scatter Plot")
Спасибо, что заглянули.
Если вам понравилась эта статья и вы думаете, что она будет полезна для мира, пожалуйста, хлопайте в ладоши и делитесь, чтобы это помогло среднему алгоритму достичь людей, которые начали свой путь в науке о данных.
Сриджит Мукерджи.
Спасибо, Subhrajyotyroy за ваши ценные предложения.