Мои данные уже находятся во фрейме данных с одним токеном на строку. Я хотел бы отфильтровать строки, содержащие стоп-слова.
Фрейм данных выглядит так:
docID <- c(1,2,2)
token <- c('the', 'cat', 'sat')
count <- c(10,20,30)
df <- data.frame(docID, token, count)
Я пробовал ниже, но получаю сообщение об ошибке:
library(tidyverse)
library(tidytext)
library(topicmodels)
library(stringr)
data('stop_words')
clean_df <- df %>%
anti_join(stop_words, by=df$token)
Ошибка:
Error: `by` can't contain join column `the`, `cat`, `sat` which is missing from LHS
Как я могу решить эту проблему?
by = c(token = "word")
. (Извините: комментарий удален, а затем размещен повторно) - person Aurèle   schedule 16.11.2017dplyr::filter(df, !grepl("[[:punct:]\\d]", token, perl = TRUE))
- person Aurèle   schedule 16.11.2017