Я использую встраивание слов {text2vec} для создания словаря похожих терминов, относящихся к определенной семантической категории.
Можно ли скомпоновать некоторые токены в корпусе, но не все? Например, я хочу рассчитать термины, похожие на «будущее поколение» или «подрастающее поколение», но эти словосочетания, конечно, встречаются как отдельные термины в исходном корпусе. Мне интересно, является ли плохой практикой использование gsub «восходящее поколение» --› «восходящее_поколение», не смешивая все другие термины, которые часто встречаются вместе, такие как «изменение климата».
Спасибо!