Как я могу сгенерировать сводную статистику по группам, если моя группирующая переменная является фактором?

Предположим, мне нужно получить сводную статистику по набору данных mtcars (часть базовой версии R 2.12.1). Ниже я группирую автомобили по количеству цилиндров их двигателей и беру средние значения для каждой группы остальных переменных в mtcars.

> str(mtcars)
'data.frame': 32 obs. of  11 variables:
 $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
 $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
 $ disp: num  160 160 108 258 360 ...
 $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
 $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
 $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
 $ qsec: num  16.5 17 18.6 19.4 17 ...
 $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
 $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
 $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
 $ carb: num  4 4 1 1 2 1 4 2 2 4 ...
> ddply(mtcars, .(cyl), mean)
       mpg cyl     disp        hp     drat       wt     qsec        vs        am     gear
1 26.66364   4 105.1364  82.63636 4.070909 2.285727 19.13727 0.9090909 0.7272727 4.090909
2 19.74286   6 183.3143 122.28571 3.585714 3.117143 17.97714 0.5714286 0.4285714 3.857143
3 15.10000   8 353.1000 209.21429 3.229286 3.999214 16.77214 0.0000000 0.1428571 3.285714
      carb
1 1.545455
2 3.428571
3 3.500000

Но если моя переменная группировки оказывается фактором, все становится сложнее. ddply() выдает предупреждение для каждого уровня фактора, так как нельзя взять mean() фактора.

> mtcars$cyl <- as.factor(mtcars$cyl)
> str(mtcars)
'data.frame': 32 obs. of  11 variables:
 $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
 $ cyl : Factor w/ 3 levels "4","6","8": 2 2 1 2 3 2 3 1 1 2 ...
 $ disp: num  160 160 108 258 360 ...
 $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
 $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
 $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
 $ qsec: num  16.5 17 18.6 19.4 17 ...
 $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
 $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
 $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
 $ carb: num  4 4 1 1 2 1 4 2 2 4 ...
> ddply(mtcars, .(cyl), mean)
       mpg cyl     disp        hp     drat       wt     qsec        vs        am     gear
1 26.66364  NA 105.1364  82.63636 4.070909 2.285727 19.13727 0.9090909 0.7272727 4.090909
2 19.74286  NA 183.3143 122.28571 3.585714 3.117143 17.97714 0.5714286 0.4285714 3.857143
3 15.10000  NA 353.1000 209.21429 3.229286 3.999214 16.77214 0.0000000 0.1428571 3.285714
      carb
1 1.545455
2 3.428571
3 3.500000
Warning messages:
1: In mean.default(X[[2L]], ...) :
  argument is not numeric or logical: returning NA
2: In mean.default(X[[2L]], ...) :
  argument is not numeric or logical: returning NA
3: In mean.default(X[[2L]], ...) :
  argument is not numeric or logical: returning NA
>

Итак, мне интересно, не собираюсь ли я просто неправильно генерировать сводную статистику.

Как обычно генерируются структуры данных сводной статистики по факторам или группам (например, средние значения, стандартные отклонения и т. д.)? Должен ли я использовать что-то другое, кроме ddply()? Если я могу использовать ddply(), что я могу сделать, чтобы избежать ошибок, возникающих при попытке получить среднее значение моего фактора группировки?


person briandk    schedule 29.01.2011    source источник


Ответы (2)


Используйте numcolwise(mean): функция numcolwise преобразует свой аргумент (функцию) в функцию, которая работает только с числовыми столбцами (и игнорирует столбцы категорий/факторов).

  > ddply(mtcars, .(cyl), numcolwise(mean))

      cyl      mpg     disp        hp     drat       wt     qsec        vs
    1   4 26.66364 105.1364  82.63636 4.070909 2.285727 19.13727 0.9090909
    2   6 19.74286 183.3143 122.28571 3.585714 3.117143 17.97714 0.5714286
    3   8 15.10000 353.1000 209.21429 3.229286 3.999214 16.77214 0.0000000
             am     gear     carb
    1 0.7272727 4.090909 1.545455
    2 0.4285714 3.857143 3.428571
    3 0.1428571 3.285714 3.500000
person Prasad Chalasani    schedule 29.01.2011
comment
Спасибо, Прасад! В то время я также не осознавал, что могу использовать вызов aggregate() вместо вызова ddply(). Например: aggregate(cbind(hp, mpg) ~ cyl, data = mtcars, mean). - person briandk; 29.01.2011
comment
Это тоже хороший способ сделать это! - person Prasad Chalasani; 29.01.2011

Здесь не ответ, а наблюдение. Это не проблема ddply() как такового. Посмотри на это. Следующие оба варианта отлично работают для создания таблицы средств:

aggregate(mtcars, by=list(mtcars$cyl), mean)
apply(mtcars, 2, function(col) tapply(col, INDEX=mtcars$cyl, FUN=mean))

Но после mtcars$cyl <- as.factor(mtcars$cyl) ничего из вышеперечисленного не работает, потому что R не знает, как получить среднее значение столбца факторов. Мы можем избежать этого, удалив этот столбец ("cyl" — это столбец 2) из ​​вещей, переданных в mean():

aggregate(mtcars[ , -2], by=list(mtcars$cyl), mean)
apply(mtcars[ , -2], 2, function(col) tapply(col, INDEX=mtcars$cyl, FUN=mean))

Но это довольно неуклюже.

person J. Win.    schedule 29.01.2011
comment
Благодарность! Я пробовал это сам, и вы абсолютно правы: проблема в том, что R не знает, как взять среднее значение фактора, и я изо всех сил пытался обойти это. Ваш способ определенно работает, хотя aggregate() также позволяет указать, какие столбцы включать: aggregate(cbind(hp, mpg) ~ cyl, data = mtcars, mean) - person briandk; 29.01.2011