Как найти похожие слова с помощью FastText?

Я играю с FastText, https://pypi.python.org/pypi/fasttext , что очень похоже на Word2Vec. Поскольку это довольно новая библиотека с небольшим количеством встроенных функций, мне было интересно, как извлечь морфологически похожие слова.

Например: model.similar_word("dog") -> собаки. Но встроенной функции нет.

Если я наберу model["dog"]

Я получаю только вектор, который можно использовать для сравнения сходства косинусов. model.cosine_similarity(model["dog"], model["dogs"]]).

Должен ли я сделать какой-то цикл и выполнить cosine_similarity для всех возможных пар в тексте? На это нужно время...!!!

Isbister 13.02.2017 источник

comment

При запуске fasttext.skipgram('train.txt','model') создается файл .bin и .vec. Используйте эти сгенерированные файлы и следуйте процессу, указанному в принятом ответе. - Prometheus 11.04.2019

comment

@Prometheus Есть идеи, как сделать что-то подобное на Java? - Ali 12.11.2019

comment

Неа. Яву никогда не трогал. Однако, к вашему сведению, файлы .bin и .vec взаимно совместимы. - Prometheus 12.11.2019

Ответы (5)

arrow_upward
15
arrow_downward

Используйте Gensim, загрузите обученный fastText файл .vec с моделями load.word2vec и используйте метод most_similiar() для поиска похожих слов!

Snehal 15.02.2017

comment

Есть ли у них какой-либо API в fasttext, который позволяет вводить два слова, а затем возвращает их косинусное сходство? Скажите что-то вроде (автомобиль, транспортное средство), а затем вернете что-то вроде 0,8? - kzs; 20.12.2018

arrow_upward
7
arrow_downward

Вы можете установить библиотеку pyfasttext для извлечения наиболее похожих или ближайших слов к определенному слову.

from pyfasttext import FastText
model = FastText('model.bin')
model.nearest_neighbors('dog', k=2000)

Или вы можете получить последнюю разрабатываемую версию fasttext, которую можно установить из репозитория github :

import fasttext
model = fasttext.load_model('model.bin')
model.get_nearest_neighbors('dog', k=100)

Kalana Geesara 18.09.2019

arrow_upward
5
arrow_downward

Вы должны использовать gensim для загрузки model.vec, а затем получить похожие слова:

m = gensim.models.Word2Vec.load_word2vec_format('model.vec')
m.most_similar(...)

far-zadeh 14.02.2017

arrow_upward
4
arrow_downward

Вы можете установить и импортировать библиотеку gensim, а затем использовать библиотеку gensim для извлечения наиболее похожих слов из загруженной модели. из FastText.

Использовать это:

import gensim
model = gensim.models.KeyedVectors.load_word2vec_format('model.vec')
similar = model.most_similar(positive=['man'],topn=10)

А по параметру topn вы получаете 10 самых похожих слов.

Md Rashad Al Hasan Rony 08.07.2018

arrow_upward
2
arrow_downward

Используйте генсим,

from gensim.models import FastText

model = FastText.load(PATH_TO_MODEL)
model.wv.most_similar(positive=['dog'])

Подробнее здесь

ChiaChong Lau 03.01.2021

Как найти похожие слова с помощью FastText?

Ответы (5)

Вопросы по теме