Объект Word2Vec в gensim
имеет параметр null_word
, который не объясняется в документации.
class gensim.models.word2vec.Word2Vec (предложения = None, size = 100, alpha = 0.025, window = 5, min_count = 5, max_vocab_size = None, sample = 0.001, seed = 1, worker = 3, min_alpha = 0,0001, sg = 0, hs = 0, negative = 5, cbow_mean = 1, hashfxn =, iter = 5, null_word = 0, trim_rule = None, sorted_vocab = 1, batch_words = 10000)
Для чего используется параметр null_word
?
Проверка кода на https://github.com/RaRe-Technologies/gensim/blob/develop/gensim/models/word2vec.py#L680, в нем говорится:
if self.null_word:
# create null pseudo-word for padding when using concatenative L1 (run-of-words)
# this word is only ever input – never predicted – so count, huffman-point, etc doesn't matter
word, v = '\0', Vocab(count=1, sample_int=0)
v.index = len(self.wv.vocab)
self.wv.index2word.append(word)
self.wv.vocab[word] = v
Что такое конкатенативный L1?