У меня есть коллекция документов, каждый из которых со временем быстро растет. Задача - найти похожие документы в любой момент времени. У меня есть два возможных подхода:
Вложение вектора (word2vec, GloVe или fasttext) с усреднением по векторам слов в документе и с использованием косинусного сходства.
Мешок слов: tf-idf или его варианты, такие как BM25.
Будет ли один из них давать значительно лучший результат? Кто-нибудь сделал количественное сравнение tf-idf с усреднением word2vec на предмет сходства документов?
Есть ли другой подход, который позволяет динамически уточнять векторы документа по мере добавления текста?