Исследовательский анализ данных (EDA) в R - Всеобъемлющее руководство

Люди - зрительные животные. Таким образом, EDA играет важную роль в вашем понимании данных и принятии лучших решений.

Этот курс EDA R, разработанный на основе курса, который я преподавал здесь, поможет вам понять данные с визуальной точки зрения, что побудит вас сделать более точные данные. решения. Это всегда первый шаг к пониманию данных.

EDA не только относится к визуализации, но и является ее неотъемлемой частью. Это приключение с данными. EDA поможет вам задать правильный вопрос. Каждый ваш статистический анализ начинается с вопроса, который вы задаете себе. EDA дает вам фору, если вы не собирали данные самостоятельно и, скорее всего, не обладаете знаниями в предметной области по этой теме.

Давайте начнем.

Есть две широкие категории данных:

Количественный (числовой)

Качественный (категориальный / факторный)

Наш Путь обучения в EDA будет продвигаться следующим образом.

Содержание

Q_ UEDA - Одномерный количественный EDA

Ql_ UEDA - качественный одномерный EDA

Q_Q l_EDA - Качественный и качественный EDA

Ql_Ql_ EDA - количественный и качественный EDA

Q_Q_ EDA - количественный и количественный EDA

Данные

Мы будем использовать данные ais из пакета DAAG в R. Вы можете найти подробную информацию о данных здесь.

install.packages("DAAG")
library(DAAG)
data = ais
head(data, n = 3)

str(data)

Переменные

(Нас интересуют только пять в демонстрационных целях)

hg (концентрация гемоглобина, в г на декалитр)
ht (высота, см)
вес (вес, кг)
пол (фактор с уровнями f m)
спорт (фактор с уровнями B_Ball Field Gym Netball Row Swim T_400m T_Sprnt Tennis W_Polo)

Q_UEDA - Одномерный количественный EDA

Наши одномерные количественные данные: hg (концентрация гемоглобина в граммах на декалитр)

1. Резюме

summary(data$hg)

2. Коробчатая диаграмма

boxplot(data$hg, main = toupper("Boxplot of Hemaglobin concentration"), ylab = "Hemaglobin concentration", col = "red")

3. Гистограмма

hist(data$hg, xlab = "Hemaglobin concentration", probability = TRUE, , main = "Histogram of Hemaglobin concentration")

4. Плотность ядра

d <- density(data$hg)
plot(d, main = "Kernel density of Hemaglobin concentration", xlab = "Hemaglobin concentration")
polygon(d, col = "red", border = "blue")

Ql_UEDA - Качественный одномерный EDA

Наши однофакторные качественные данные: спорт (фактор с уровнями B_Ball Field Gym Netball Row Swim T_400m T_Sprnt Tennis W_Polo)

1. Таблица распределения частот

table(data$sport)

2. Вертикальная гистограмма

barplot(table(data$sport), main="Count of participants in different sports for study", xlab="Sports",ylab="Count", border="red", col="blue", density=10)

3. Горизонтальный график

barplot(table(data$sport), main="Count of participants in different sports for study", xlab="Sports",ylab="Count", col = "darkred", horiz = TRUE)

4. Круговая диаграмма

pie(table(data$sport), labels = levels(data$sport))

Q_Ql_EDA - Качественный и качественный EDA

Наши качественные и качественные данные:

пол (фактор с уровнями f m)

спорт (фактор с уровнями B_Ball Field Gym Netball Row Swim T_400m T_Sprnt Tennis W_Polo)

Центральная идея:

Мы сравним соответствующий Одномерный EDA.

Таблица частот
BarPlot

1. Таблица непредвиденных обстоятельств (сравнение таблиц частот)

sex_vs_sport = data[,12:13]
table(sex_vs_sport)
xtabs(~ sex + sport, sex_vs_sport) 
# This code chunk will also work. This chunk will give an insight to multiple categorical variables.

2. Вертикальная гистограмма (сравнение гистограмм)

barplot(table(sex_vs_sport),
        main = "Sports Participation Distribution by Sex",
        xlab = "Sport",
        col = c("red","green") 
)
legend("topleft",
       c("Female","Male"),
       fill = c("red","green")
)

3. Рядом с гистограммой (сравнение гистограмм)

barplot(table(sex_vs_sport),
        main = "Sports Participation Distribution by Sex",
        xlab = "Sport",
        col = c("red","green"),
        beside =  TRUE) 
legend("topleft",
       c("Female","Male"),
       fill = c("red","green")
)

Ql_Ql_EDA - количественный и качественный EDA

Наши количественные и качественные данные:

hg (концентрация гемоглобина, в г на декалитр)

спорт (фактор с уровнями B_Ball Field Gym Netball Row Swim T_400m T_Sprnt Tennis W_Polo)

пол (фактор с уровнями f m)

Центральная идея:

Мы сравним соответствующий Одномерный EDA с Качественными данными.

Сводное сравнение
Сравнение коробчатых диаграмм
Сравнение плотности ядра

1. Краткое сравнение

hg_vs_sport = data[,c(4,13)]
hg_vs_sex = data[,c(4,12)]
by(hg_vs_sex, hg_vs_sex$sex, summary)

2. Сравнение коробчатых диаграмм

boxplot(hg~sport,
        data=data,
        main="Different boxplots for each sport",
        xlab="Sport",
        ylab="Hemaglobin concentration",
        col="orange",
        border="brown"
)

3.1 Сравнение плотности ядра (для спорта)

library(ggplot2)
ggplot(hg_vs_sport, aes(hg, fill = sport)) + geom_density(alpha = 0.2)

3.2 Сравнение плотности ядра (для пола)

library(ggplot2)
ggplot(hg_vs_sex, aes(hg, fill = sex)) + geom_density(alpha = 0.2)

Q_Q_EDA - количественный и количественный EDA

Наши количественные и количественные данные:

ht (высота, см)

вес (вес, кг)

1. Сюжет

plot(data$wt ~ data$ht , data,
            xlab="Height", ylab="Weight",
            main="Scatter Plot")

2. Точечная диаграмма

library(car)
scatterplot(data$wt ~ data$ht , data,
            ylab="Weight", xlab="Height",
            main="Enhanced Scatter Plot")

Спасибо, что заглянули.

Если вам понравилась эта статья и вы думаете, что она будет полезна для мира, пожалуйста, хлопайте в ладоши и делитесь, чтобы это помогло среднему алгоритму достичь людей, которые начали свой путь в науке о данных.

Сриджит Мукерджи.

Спасибо, Subhrajyotyroy за ваши ценные предложения.