Как добавить функцию удаления стоп-слов, лемматизации и определения корней в Rasa NLU

Привет всем, я работал над Rasa Stack в течение последних 4 месяцев, и мы делали чат-бот для веб-сайта свадебных открыток. В этом чат-боте я планировал добавить средство для удаления стоп-слов, чтобы он мог легко предсказывать намерение и сущность.

Что такое стоп-слово?

Слова, которые отфильтровываются веб-поисковыми системами и другими корпоративными поисковыми и индексирующими платформами. Стоп-слова — это слова естественного языка, которые имеют очень мало значения, такие как и, то, а, ан и подобные слова.

Стоп-слова NLTK
Обработка естественного языка (NLP) — это область исследований, в которой возникает множество проблем, таких как естественный язык…pythonspot.com

Что такое лемматизация и стемминг?

Стемминг и лемматизация в Python
Стемминг и лемматизация — это методы нормализации текста (или иногда называемые нормализацией слов) в области…www.datacamp.com

Пожалуйста, загрузите файл по ссылке ниже, скопируйте файл и перезапишите существующий файл.

vigneshgig/rasanlu_stopword
Внесите свой вклад в разработку vigneshgig/rasanlu_stopword, создав учетную запись на GitHub.github.com

Примечание. Новый стек rasa планирует объединить как rasa nlu, так и ядро rasa, я не знаю пути, поэтому, пожалуйста, найдите whitespace_tokenizer.py в установленном пути стека rasa и перезапишите файл, и он работает только для встраивания tensorflow, потому что в Только при встраивании тензорного потока мы используем функцию whitespace_tokenizer, а для другого токенизатора вы можете написать код для удаления stop_word.

Как добавить функцию удаления стоп-слов, лемматизации и определения корней в Rasa NLU

Вопросы по теме