У меня есть два предварительно обученных вложения слов: Glove.840b.300.txt
и custom_glove.300.txt
Один прошел предварительную подготовку в Стэнфорде, а другой - я. Оба имеют разный словарный запас. Чтобы уменьшить oov, я хотел бы добавить слова, которые не появляются в file1, но присутствуют в file2, в file1. Как мне это легко сделать?
Вот как я загружаю и сохраняю файлы в gensim 3.4.0.
from gensim.models.keyedvectors import KeyedVectors
model = KeyedVectors.load_word2vec_format('path/to/thefile')
model.save_word2vec_format('path/to/GoogleNews-vectors-negative300.txt', binary=False)