Столбец даты и времени для отображения столбца частей

У меня есть таблица со столбцом даты:

df <- structure(list(date = structure(c(1489494191.81966, 1489494125.153, 
    1489494058.48633, 1489493991.81966, 1489493925.153, 1489493858.48633, 
    1489493791.81966, 1489493725.153, 1489493658.48633, 1489493591.81966
    ), class = c("POSIXct", "POSIXt"), tzone = "")), .Names = "date", class = c("tbl_df", 
    "tbl", "data.frame"), row.names = c(NA, -10L))

df

# A tibble: 10 × 1
                  date
                <dttm>
1  2017-03-14 13:23:11
2  2017-03-14 13:22:05
3  2017-03-14 13:20:58
4  2017-03-14 13:19:51
5  2017-03-14 13:18:45
6  2017-03-14 13:17:38
7  2017-03-14 13:16:31
8  2017-03-14 13:15:25
9  2017-03-14 13:14:18
10 2017-03-14 13:13:11

который я хотел бы преобразовать в столбец списка со списками частей (год, месяц, день, час, минуты, секунды), что-то вроде:

# A tibble: 10 × 1
                     result
                     <list>
1  list(2017,3,14,13,23,11)
2  list(2017,3,14,13,22,5)
3  list(2017,3,14,13,20,58)
4  list(2017,3,14,13,19,51)
5  list(2017,3,14,13,18,45)
6  list(2017,3,14,13,17,38)
7  list(2017,3,14,13,16,31)
8  list(2017,3,14,13,15,25)
9  list(2017,3,14,13,14,18)
10 list(2017,3,14,13,13,11)

Я пробовал кучу стратегий разделения строк, но они очень неэффективны (на самом деле df огромен). Компоненты списка должны быть целыми или числовыми в конце.

Есть хитрый способ?

ИЗМЕНИТЬ:

Это то, что я делаю сейчас, но, похоже, это не очень хорошо масштабируется:

library(lubridate)
library(purrr)

df %>%
  transmute(y = year(date),
            m = month(date),
            d = day(date),
            hh = hour(date),
            mm = minute(date),
            ss = second(date)
         ) %>%
  by_row(c, .to = "result") %>%
  select(result)

# A tibble: 10 × 1
       result
       <list>
1  <list [6]>
2  <list [6]>
3  <list [6]>
4  <list [6]>
5  <list [6]>
6  <list [6]>
7  <list [6]>
8  <list [6]>
9  <list [6]>
10 <list [6]>

person jenswirf    schedule 14.03.2017    source источник
comment
Я думаю, df$res <- strsplit(as.character(df$date), " |-|:") может быть началом   -  person David Arenburg    schedule 14.03.2017


Ответы (2)


Вы можете использовать library(lubridate):

library(lubridate)

y <- year(df$date)
m <- month(df$date)
d <- day(df$date)
h <- hour(df$date)
min <- minute(df$date)
s <- as.integer(second(df$date))

а затем объединить в список.

res <- lapply(1:length(y), function(x){

  return(c(y[x], d[x], d[x], h[x], min[x], s[x]))

})

tibble::tibble(res)
person J_F    schedule 14.03.2017

Вы можете сделать это в одной строке кода с data.table как:

DT[, unclass(as.POSIXlt(date))][, .(year+1900, mon, mday, hour, min, sec)]

Преобразуйте data.frame в data.table и дату в формате POSIXlt.

DT <- as.data.table(df)
DT[, unclass(as.POSIXlt(date))][, ':=' (year=year+1900, mon=mon+1, sec=floor(sec)) ][, .(year, mon, mday, hour, min, sec)]

Это связывает операции, поэтому результат выглядит так:

   year mon mday hour min sec
 1: 2017   3   14    7  23  11
 2: 2017   3   14    7  22   5
 3: 2017   3   14    7  20  58
 4: 2017   3   14    7  19  51
 5: 2017   3   14    7  18  45
 6: 2017   3   14    7  17  38
 7: 2017   3   14    7  16  31
 8: 2017   3   14    7  15  25
 9: 2017   3   14    7  14  18
10: 2017   3   14    7  13  11

Это, вероятно, самый быстрый способ в R обрабатывать миллионы записей, разбивая дату так, как вы предполагали.

person Sun Bee    schedule 14.03.2017