Я пытаюсь токенизировать предложение следующим образом.
Section <- c("If an infusion reaction occurs, interrupt the infusion.")
df <- data.frame(Section)
Когда я токенизирую с помощью tidytext и приведенного ниже кода,
AA <- df %>%
mutate(tokens = str_extract_all(df$Section, "([^\\s]+)"),
locations = str_locate_all(df$Section, "([^\\s]+)"),
locations = map(locations, as.data.frame)) %>%
select(-Section) %>%
unnest(tokens, locations)
это дает мне набор результатов, как показано ниже (см. изображение).
Как получить запятую и точку как независимые токены, которые не являются частью «происходит» и «вливание». соответственно, используя tidytext. поэтому мои токены должны быть
If
an
infusion
reaction
occurs
,
interrupt
the
infusion
.