Итак, я делаю проект по подобию документов, и сейчас мои функции - это только вложения из Doc2Vec. Поскольку это не дает никаких хороших результатов после оптимизации гиперпараметров и встраивания слов перед встраиванием документа ... Какие еще функции я могу добавить, чтобы получить лучшие результаты? Мой набор данных - это 150 документов по 500-700 слов в каждом, с 10 темами (ярлыками), каждый документ имеет одну тему. Документы маркируются на уровне документа, и эта маркировка в настоящее время используется только для целей оценки.
Изменить: Ниже приводится ответ на вопросы Годзомо и мой комментарий к его ответу:
Оценка модели выполняется на обучающей выборке. Я сравниваю, совпадает ли этикетка с наиболее похожим документом модели. Для этого я сначала получаю вектор документа, используя метод модели infer_vector, а затем most_similar, чтобы получить наиболее похожий документ. Текущие результаты, которые я получаю, имеют точность 40-50%. Удовлетворительный балл должен быть не менее 65% и выше.
Из-за цели этого исследования и его дальнейшего использования я не могу получить больший набор данных, поэтому профессор порекомендовал мне, поскольку это университетский проект, добавить некоторые дополнительные функции к встраиваемым документам Doc2Vec. . Поскольку я понятия не имел, что он думает, я спрашиваю сообщество stackoverflow.
Конечная цель модели - выполнить кластеризацию документов, и, опять же, метки пока используются только для целей оценки.
Если я не получу хороших результатов с этой моделью, я попробую более простые, упомянутые @Adnan S @gojomo, такие как TF-IDF, Word Mover's Distance, Bag of words, просто предполагалось, что я получу лучшие результаты с помощью Doc2Vec.