Каковы конкретные шаги для вычисления векторов предложений из векторов слов word2vec с использованием метода усреднения?

Вопрос новичка, но я немного озадачен этим. Надеюсь, ответ на этот вопрос принесет пользу и другим новичкам в НЛП.

Вот еще некоторые подробности:

Я знаю, что вы можете вычислить векторы предложений из векторов слов, сгенерированных word2vec. Но каковы фактические шаги, необходимые для создания этих векторов предложений? Может ли кто-нибудь предоставить интуитивно понятный пример, а затем некоторые вычисления, чтобы объяснить этот процесс?

Например: Предположим, у меня есть предложение из трех слов: Сегодня жарко. И предположим, что эти слова имеют гипотетические векторные значения: (1,2,3) (4,5,6) (7,8,9). Могу ли я получить вектор предложения, выполняя покомпонентное усреднение этих векторов слов? А что, если векторы имеют разную длину, например: (1,2) (4,5,6) (7,8,9,23,76) как выглядит процесс усреднения для этих случаев?

pete the dude 12.08.2017 источник

Ответы (2)

arrow_upward
2
arrow_downward

Создание вектора для длины текста (предложение / абзац / документ) путем усреднения векторов слов - один из простых подходов. (Это не очень хорошо улавливает оттенки значения, но это легко сделать.)

Используя библиотеку gensim, это может быть очень просто:

import numpy as np
from gensim.models.keyedvectors import KeyedVectors

wv = KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin.gz', binary=True)
text = "the quick brown fox jumped over the lazy dog"
text_vector = np.mean([wv[word] for word in text.split()], axis=0)

Следует рассмотреть варианты использования необработанных векторов слов или векторов слов, которые либо нормализованы на единицу, либо иным образом взвешены некоторой мерой значимости слова.

Word-векторы, которые совместимы друг с другом, будут иметь одинаковое количество измерений, поэтому никогда не возникает проблем с попыткой усреднить векторы разного размера.

Другие методы, такие как 'Paragraph Vectors' (Doc2Vec in gensim), могут дать лучшие текстовые векторы для некоторых целей в некоторых корпусах.

Другие методы сравнения схожести текстов, использующие слова-векторы, такие как «Расстояние перемещения слов» (WMD), могут дать лучшие оценки парного сходства текста, чем сравнение отдельных сводных векторов. (WMD не сводит текст к одному вектору и может быть дорогостоящим для вычисления.)

gojomo 12.08.2017

arrow_upward
0
arrow_downward

В вашем примере усреднение трех векторов слов (каждое из трех измерений) даст один единственный вектор из трех измерений.

Centroid-vec = 1/3 * (1 + 4 + 7, 2 + 5 + 8, 3 + 6 + 9) = (4, 5, 6)

Лучший способ получить единый вектор для документа - использовать векторы абзацев, обычно известные как doc2vec .

Debasis 12.08.2017

Вопросы по теме

Как правильно переопределить недоступный HTML-контент с помощью CSS?
Emacs тормозит и создает 0-байтовые файлы в рабочем каталоге
Скрытое переполнение элементов с переменной высотой?
отправить электронное письмо в качестве параметра в URL-адресе в ошибке Rails
Ханойские башни с использованием списков Prolog
Хранение подписей в кодировке base64 в базе данных
Редактирование CSV-файла — удаление всей строки похожих значений на основе условия VIA Powershell
Как начать новый подсчет, когда значение категориальной переменной изменилось в R
Настройте параметры прокси-сервера HTTP в инструменте командной строки Android
Разбор кода JavaScript в модуле Node.js
Почему в С++ возврат указателя частной переменной разных объектов приводит к ошибке сегментации?
Рассчитать минимальное, максимальное и среднее значение в столбце данных
Как применить несколько фильтров в таблице данных угловых материалов?
Конфигурация конкретного узла в JBoss Clustering
Подчеркивания не считываются компонентом сценария в службах интеграции Microsoft
как настроить struts2 с помощью tomcat и apache с mod_jk?
Как использовать REST API RSA Archer для получения отчета?
JMH: не учитывать время внутреннего метода
Время жизни временного объекта, связанного с константной ссылкой (цепочка методов)
фильтр сканирования по подстроке