Привет всем, я работал над Rasa Stack в течение последних 4 месяцев, и мы делали чат-бот для веб-сайта свадебных открыток. В этом чат-боте я планировал добавить средство для удаления стоп-слов, чтобы он мог легко предсказывать намерение и сущность.

Что такое стоп-слово?

Слова, которые отфильтровываются веб-поисковыми системами и другими корпоративными поисковыми и индексирующими платформами. Стоп-слова — это слова естественного языка, которые имеют очень мало значения, такие как и, то, а, ан и подобные слова.



Что такое лемматизация и стемминг?



Пожалуйста, загрузите файл по ссылке ниже, скопируйте файл и перезапишите существующий файл.



Примечание. Новый стек rasa планирует объединить как rasa nlu, так и ядро ​​rasa, я не знаю пути, поэтому, пожалуйста, найдите whitespace_tokenizer.py в установленном пути стека rasa и перезапишите файл, и он работает только для встраивания tensorflow, потому что в Только при встраивании тензорного потока мы используем функцию whitespace_tokenizer, а для другого токенизатора вы можете написать код для удаления stop_word.