подсчет уникальных факторов в r

Я хотел бы знать количество уникальных маток, родивших в каждую из зарегистрированных дат рождения. Мой фрейм данных похож на этот:

dam <- c("2A11","2A11","2A12","2A12","2A12","4D23","4D23","1X23")
bdate <- c("2009-10-01","2009-10-01","2009-10-01","2009-10-01",
           "2009-10-01","2009-10-03","2009-10-03","2009-10-03")
mydf <- data.frame(dam,bdate)
mydf
#    dam      bdate
# 1 2A11 2009-10-01
# 2 2A11 2009-10-01
# 3 2A12 2009-10-01
# 4 2A12 2009-10-01
# 5 2A12 2009-10-01
# 6 4D23 2009-10-03
# 7 4D23 2009-10-03
# 8 1X23 2009-10-03

Я использовал aggregate(dam ~ bdate, data=mydf, FUN=length), но он подсчитывает всех самок, родивших в определенный день.

bdate dam
1 2009-10-01   5
2 2009-10-03   3

Вместо этого мне нужно иметь что-то вроде этого:

mydf2
  bdate      dam
1 2009-10-01  2
2 2009-10-03  2

Ваша помощь очень ценится!


person baz    schedule 05.05.2011    source источник


Ответы (4)


Что о:

aggregate(dam ~ bdate, data=mydf, FUN=function(x) length(unique(x)))
person Joshua Ulrich    schedule 05.05.2011

Вы также можете сначала запустить unique для данных:

aggregate(dam ~ bdate, data=unique(mydf[c("dam","date")]), FUN=length)

Тогда вы также можете использовать table вместо aggregate, хотя вывод будет немного другим.

> table(unique(mydf[c("dam","date")])$bdate)

2009-10-01 2009-10-03 
         2          2 
person Aaron left Stack Overflow    schedule 05.05.2011
comment
+1 Хорошая идея сначала запустить unique. Однако обратите внимание, что это будет работать, только если mydf содержит только dam и bdate. - person Joshua Ulrich; 05.05.2011
comment
@Джошуа: это точно. Я попытался запустить свои данные, и он не смог получить то, что хотел. Предоставленная вами строка сделала именно то, что я искал, поскольку мои данные содержат около 60 других переменных. - person baz; 05.05.2011
comment
Если у вас есть другие переменные, просто используйте два нужных столбца. См. редактирование. - person Aaron left Stack Overflow; 05.05.2011

Это всего лишь пример того, как думать о проблеме и один из подходов к ее решению.

split.mydf <- with(mydf, split(x = mydf, f = bdate)) #each list element has only one date.
# it's just a matter of counting unique dams
unique.mydf <- lapply(X = split.mydf, FUN = unique)
#and then count the number of unique elements
unilen.mydf <- lapply(unique.mydf, length)
#you can do these two last steps in one go like so
lapply(split.mydf, FUN = function(x) length(unique(x)))

as.data.frame(unlist(unilen.mydf)) #data.frame is just a special list, so this is water to your mill

           unlist(unilen.mydf)
2009-10-01                   2
2009-10-03                   2
person Roman Luštrik    schedule 05.05.2011
comment
Хороший пример: особенно полезно для тех, у кого немного другая проблема, которые находят эту ветку, так как в ней разделены шаги для облегчения понимания. - person Aaron left Stack Overflow; 05.05.2011

В dplyr вы можете использовать n_distinct :

library(tidyverse)
mydf %>%
  group_by(bdate) %>%
  summarize(dam = n_distinct(dam))
person Preston    schedule 08.12.2017