Я работаю над алгоритмом интеллектуального анализа данных, где мне нужно токенизировать строку, используя несколько слов. У меня есть отдельный файл, содержащий все стоп-слова. Что мне нужно сделать, так это токенизировать входную строку любым словом (стоп-словом), работающим в качестве разделителя. Например.
Если файл содержит стоп-слова, такие как
a
это
и
из
, что
и входная строка будет выглядеть так:
"компьютерный кластер состоит из набора слабо связанных компьютеров, которые работают вместе"
на выходе будет
компьютерный кластер состоит
из набора
слабо связанных компьютеров
работать вместе
Рекурсивная проверка строки по всем стоп-словам займет очень много времени? Есть ли хороший метод для этого?