Я работаю над проектом схожести текста с использованием FastText, основной пример, который я нашел для обучения модели:
from gensim.models import FastText
model = FastText(tokens, size=100, window=3, min_count=1, iter=10, sorted_vocab=1)
Насколько я понимаю, поскольку я указываю размер вектора и ngram, модель обучается здесь с нуля, и если набор данных небольшой, я бы получил отличные результаты.
Другой вариант, который я нашел, - загрузить исходную модель Википедии, которая представляет собой огромный файл:
from gensim.models.wrappers import FastText
model = FastText.load_fasttext_format('wiki.simple')
У меня вопрос: могу ли я загрузить Википедию или любую другую модель и точно настроить ее с моим набором данных?