вложения слов text2vec: составные некоторые токены, но не все

Я использую встраивание слов {text2vec} для создания словаря похожих терминов, относящихся к определенной семантической категории.

Можно ли скомпоновать некоторые токены в корпусе, но не все? Например, я хочу рассчитать термины, похожие на «будущее поколение» или «подрастающее поколение», но эти словосочетания, конечно, встречаются как отдельные термины в исходном корпусе. Мне интересно, является ли плохой практикой использование gsub «восходящее поколение» --› «восходящее_поколение», не смешивая все другие термины, которые часто встречаются вместе, такие как «изменение климата».

Спасибо!


person scarlett rouge    schedule 04.10.2020    source источник
comment
Вы уже пробовали читать то, что описано в этом вопросе? datascience.stackexchange.com/questions/22572/   -  person Elidor00    schedule 04.10.2020


Ответы (1)


Да, все в порядке. Это может работать или не работать именно так, как вы хотите, но стоит попробовать.

Вы можете посмотреть код для сочетаний в text2vec, который может автоматически определять и объединять фразы для вас. . Вы, конечно, можете присоединиться к фразам, если хотите. В Gensim на Python я бы использовал код Phrases для того же самого.

Учитывая, что обучение векторов слов обычно не занимает слишком много времени, лучше всего попробовать разные методы и посмотреть, какой из них лучше подходит для вашей цели.

person polm23    schedule 05.10.2020