Возможна ли тонкая настройка моделей FastText

Я работаю над проектом схожести текста с использованием FastText, основной пример, который я нашел для обучения модели:

from gensim.models import FastText

model = FastText(tokens, size=100, window=3, min_count=1, iter=10, sorted_vocab=1)

Насколько я понимаю, поскольку я указываю размер вектора и ngram, модель обучается здесь с нуля, и если набор данных небольшой, я бы получил отличные результаты.

Другой вариант, который я нашел, - загрузить исходную модель Википедии, которая представляет собой огромный файл:

from gensim.models.wrappers import FastText

model = FastText.load_fasttext_format('wiki.simple')

У меня вопрос: могу ли я загрузить Википедию или любую другую модель и точно настроить ее с моим набором данных?


person Luis Ramon Ramirez Rodriguez    schedule 05.09.2019    source источник


Ответы (1)


Если у вас есть помеченный набор данных, вы сможете его настроить. В этом выпуске GitHub объясняется, что вы хотите использовать опцию pretrainedVectors. Вы должны начать с предварительно обученных векторов Википедии, а затем потренироваться на своем наборе данных. Кажется, что gensim может это сделать, но, согласно этой проблеме с GH, были некоторые ошибки.

person Sam H.    schedule 10.09.2019
comment
Я хочу настроить встраивание Fasttext (без учителя) в корпусе домена, как я могу этого добиться? - person Hari Prasad; 30.01.2020
comment
@HariPrasad посмотрите на первую опубликованную мной ссылку. FasText не поддерживает это. - person Sam H.; 30.01.2020