вложения слов text2vec: составные некоторые токены, но не все

Я использую встраивание слов {text2vec} для создания словаря похожих терминов, относящихся к определенной семантической категории.

Можно ли скомпоновать некоторые токены в корпусе, но не все? Например, я хочу рассчитать термины, похожие на «будущее поколение» или «подрастающее поколение», но эти словосочетания, конечно, встречаются как отдельные термины в исходном корпусе. Мне интересно, является ли плохой практикой использование gsub «восходящее поколение» --› «восходящее_поколение», не смешивая все другие термины, которые часто встречаются вместе, такие как «изменение климата».

Спасибо!

scarlett rouge 04.10.2020 источник

comment

Вы уже пробовали читать то, что описано в этом вопросе? datascience.stackexchange.com/questions/22572/ - Elidor00 04.10.2020

Ответы (1)

arrow_upward
0
arrow_downward

Да, все в порядке. Это может работать или не работать именно так, как вы хотите, но стоит попробовать.

Вы можете посмотреть код для сочетаний в text2vec, который может автоматически определять и объединять фразы для вас. . Вы, конечно, можете присоединиться к фразам, если хотите. В Gensim на Python я бы использовал код Phrases для того же самого.

Учитывая, что обучение векторов слов обычно не занимает слишком много времени, лучше всего попробовать разные методы и посмотреть, какой из них лучше подходит для вашей цели.

polm23 05.10.2020

вложения слов text2vec: составные некоторые токены, но не все

Ответы (1)

Вопросы по теме