получение представления абзацев для невидимых абзацев в doc2vec

Я хотел бы использовать модель genism doc2vec для задачи классификации. Однако похоже, что реализация doc2vec в gensim требует просмотра всех документов (обучающих и тестовых) для создания словаря перед обучением модели. В противном случае вы получите ошибку ключа, если хотите получить вектор документа документа, которого не было при построении словаря. Интересно, правильно ли я понимаю! На практике во время обучения нет доступа к тестовым данным.

Есть ли способ обновить словарный запас во время теста, чтобы иметь возможность получить документальное представление тестовых документов?


person Nima    schedule 30.04.2016    source источник


Ответы (1)


Вы можете только искать изученные векторы-документы для материала, который был представлен во время обучения.

Но есть метод infer_vector(), который может предоставить новый токенизированный документ для замороженной обученной модели и вернуть "наиболее подходящий" вектор. Это приблизительно то, что было бы возвращено, если бы новый документ был доступен во время обучения. Видеть:

https://radimrehurek.com/gensim/models/doc2vec.html#gensim.models.doc2vec.Doc2Vec.infer_vector

person gojomo    schedule 28.05.2016