Хотя вопрос немного устарел, вот новая библиотека, о которой стоит упомянуть, которая может выполнять дополнительные задачи.
В некоторых случаях вы не хотите удалять только стоп-слова. Скорее, вы хотели бы найти стоп-слова в текстовых данных и сохранить их в списке, чтобы вы могли найти шум в данных и сделать их более интерактивными.
Библиотека называется 'textfeatures'
. Вы можете использовать его следующим образом:
! pip install textfeatures
import textfeatures as tf
import pandas as pd
Например, предположим, что у вас есть следующий набор строк:
texts = [
"blue car and blue window",
"black crow in the window",
"i see my reflection in the window"]
df = pd.DataFrame(texts) # Convert to a dataframe
df.columns = ['text'] # give a name to the column
df
Теперь вызовите функцию stopwords() и передайте нужные параметры:
tf.stopwords(df,"text","stopwords") # extract stop words
df[["text","stopwords"]].head() # give names to columns
Результат будет:
text stopwords
0 blue car and blue window [and]
1 black crow in the window [in, the]
2 i see my reflection in the window [i, my, in, the]
Как видите, в последнем столбце есть стоп-слова, включенные в этот документ (запись).
person
Taie
schedule
24.02.2021
from nltk.corpus import stopwords
для будущих пользователей Google - person danodonovan   schedule 14.05.2015nltk.download("stopwords")
, чтобы сделать доступным словарь стоп-слов. - person sffc   schedule 10.07.2015