Публикации по теме 'sentencepiece'


Easy SentencePiece для токенизации подслов в Python и Tensorflow
Как мы можем легко обучить токенизатор подслов SentencePiece с нуля с помощью Python и использовать его в Tensorflow 2. В последнее время я занимался разработкой некоторых интересных проектов NLP с помощью TensorFlow ( следите за обновлениями, я скоро опубликую их! 😉) и хотел воспользоваться возможностью, чтобы попробовать и включить токенизация подслов . Я решил прибегнуть к SentencePiece [1] (в частности, к его алгоритму unigram ) из-за огромного количества положительных функций,..