получение представления абзацев для невидимых абзацев в doc2vec

Я хотел бы использовать модель genism doc2vec для задачи классификации. Однако похоже, что реализация doc2vec в gensim требует просмотра всех документов (обучающих и тестовых) для создания словаря перед обучением модели. В противном случае вы получите ошибку ключа, если хотите получить вектор документа документа, которого не было при построении словаря. Интересно, правильно ли я понимаю! На практике во время обучения нет доступа к тестовым данным.

Есть ли способ обновить словарный запас во время теста, чтобы иметь возможность получить документальное представление тестовых документов?

gensim classification doc2vec

Nima 30.04.2016 источник

Ответы (1)

arrow_upward
2
arrow_downward

Вы можете только искать изученные векторы-документы для материала, который был представлен во время обучения.

Но есть метод infer_vector(), который может предоставить новый токенизированный документ для замороженной обученной модели и вернуть "наиболее подходящий" вектор. Это приблизительно то, что было бы возвращено, если бы новый документ был доступен во время обучения. Видеть:

https://radimrehurek.com/gensim/models/doc2vec.html#gensim.models.doc2vec.Doc2Vec.infer_vector

gojomo 28.05.2016

получение представления абзацев для невидимых абзацев в doc2vec

Ответы (1)

Вопросы по теме