ЦЕЛЬ: осветить и преобразовать все технические аспекты исследовательской работы WORD2VEC в сообщение в блоге, которое будет простым и понятным для всех читателей.
Исходный документ:https://arxiv.org/pdf/1301.3781.pdf
ВВЕДЕНИЕ:
- С каждым словом связан вектор. Это означает, что для предложения будет ассоциирована матрица. Таким образом, для каждого слова будет какое-то сопоставление, и это сопоставление не что иное, как word2vec.
- Вместо случайного назначения отображения (многие современные системы и методы НЛП рассматривают слова как атомарные единицы), если слова со сходством сопоставляются с векторами таким образом, что расстояние между векторами минимально, тогда это будет иметь больше смысла.
- Вышеизложенное можно понять в виде примера аналогии — если, мужчина : женщина :: то, король : ??? Очевидным ответом будет королева. Здесь четыре разных вектора связаны друг с другом в зависимости от их значения.
- У существующих простых методов есть несколько ограничений, таких как меньший объем данных, меньшая точность, более высокая стоимость вычислений и т. д.
- В последующем резюме мы поймем, как word2vec может отображать слово (w) в вектор (v), чтобы вектор удовлетворял этим два свойства -> Векторы не должны быть разреженными, и Вектор должен понимать значение или контекст.
РЕЗЮМЕ WORD2VEC:
- Параметры, используемые для измерения качества результирующих векторных представлений:
o Близость похожих слов.
o Несколько степеней сходства между словами.
- Проблемы, вызванные предыдущими моделями ():
o Большая часть сложности вызвана нелинейным скрытым слоем в моделях.
o Представление данных более точное, но теряется эффективность.
- Следовательно, цель состоит в том, чтобы исследовать более простые модели (для эффективного обучения на гораздо большем количестве данных), а не нейронные сети, которые представляют данные более точно, но теряют эффективность. И минимизировать вычислительную сложность.
- Предлагаемые модели:
o Непрерывная модель набора слов (CBOW): она предсказывает текущее слово на основе контекста. Порядок слов в истории не влияет на проекцию.
o Непрерывная модель Skip-gram: она предсказывает окружающие слова, учитывая текущее слово.
o Из-за накладных расходов распределенной инфраструктуры использование ЦП модели CBOW и модели Skip-gram намного ближе друг к другу, чем их реализации на одной машине.
- Q. if, мужчина : женщина :: then, king : ??? Простые алгебраические операции с векторным представлением слов
o Шаг 1: вычислить вектор X = вектор («женщина») − вектор («мужчина») + вектор («король»)
o Шаг 2: Поиск в векторном пространстве слова, ближайшего к X, измеренному косинусным расстоянием.
o Шаг 3: Когда векторы слов хорошо обучены, можно найти правильный ответ (королева слов)
ЗАКЛЮЧИТЕЛЬНЫЕ МЫСЛИ И ЗАКЛЮЧЕНИЕ:
- Векторы слов можно использовать для значительного улучшения и упрощения многих приложений НЛП.
- Все модели обучены с использованием стохастического градиентного спуска и обратного распространения ошибки.
- Основная цель word2vec — максимизировать точность при минимизации вычислительной сложности.
- Можно обучать высококачественные векторы слов, используя очень простые архитектуры моделей, используя word2vec.
- Приложения word2vec:
o В автоматическом расширении фактов в Базах Знаний
o Для проверки правильности существующих фактов
о Анализ настроений
o Обнаружение перефразирования
- Из-за гораздо меньшей вычислительной сложности можно вычислить очень точные многомерные векторы слов из гораздо большего набора данных. Следовательно, вектор слов будет очень важным строительным блоком для будущих приложений НЛП.