ЦЕЛЬ: осветить и преобразовать все технические аспекты исследовательской работы WORD2VEC в сообщение в блоге, которое будет простым и понятным для всех читателей.

Исходный документ:https://arxiv.org/pdf/1301.3781.pdf

ВВЕДЕНИЕ:

  • С каждым словом связан вектор. Это означает, что для предложения будет ассоциирована матрица. Таким образом, для каждого слова будет какое-то сопоставление, и это сопоставление не что иное, как word2vec.
  • Вместо случайного назначения отображения (многие современные системы и методы НЛП рассматривают слова как атомарные единицы), если слова со сходством сопоставляются с векторами таким образом, что расстояние между векторами минимально, тогда это будет иметь больше смысла.
  • Вышеизложенное можно понять в виде примера аналогии — если, мужчина : женщина :: то, король : ??? Очевидным ответом будет королева. Здесь четыре разных вектора связаны друг с другом в зависимости от их значения.
  • У существующих простых методов есть несколько ограничений, таких как меньший объем данных, меньшая точность, более высокая стоимость вычислений и т. д.
  • В последующем резюме мы поймем, как word2vec может отображать слово (w) в вектор (v), чтобы вектор удовлетворял этим два свойства -> Векторы не должны быть разреженными, и Вектор должен понимать значение или контекст.

РЕЗЮМЕ WORD2VEC:

  • Параметры, используемые для измерения качества результирующих векторных представлений:

o Близость похожих слов.

o Несколько степеней сходства между словами.

  • Проблемы, вызванные предыдущими моделями ():

o Большая часть сложности вызвана нелинейным скрытым слоем в моделях.

o Представление данных более точное, но теряется эффективность.

  • Следовательно, цель состоит в том, чтобы исследовать более простые модели (для эффективного обучения на гораздо большем количестве данных), а не нейронные сети, которые представляют данные более точно, но теряют эффективность. И минимизировать вычислительную сложность.
  • Предлагаемые модели:

o Непрерывная модель набора слов (CBOW): она предсказывает текущее слово на основе контекста. Порядок слов в истории не влияет на проекцию.

o Непрерывная модель Skip-gram: она предсказывает окружающие слова, учитывая текущее слово.

o Из-за накладных расходов распределенной инфраструктуры использование ЦП модели CBOW и модели Skip-gram намного ближе друг к другу, чем их реализации на одной машине.

  • Q. if, мужчина : женщина :: then, king : ??? Простые алгебраические операции с векторным представлением слов

o Шаг 1: вычислить вектор X = вектор («женщина») − вектор («мужчина») + вектор («король»)

o Шаг 2: Поиск в векторном пространстве слова, ближайшего к X, измеренному косинусным расстоянием.

o Шаг 3: Когда векторы слов хорошо обучены, можно найти правильный ответ (королева слов)

ЗАКЛЮЧИТЕЛЬНЫЕ МЫСЛИ И ЗАКЛЮЧЕНИЕ:

  • Векторы слов можно использовать для значительного улучшения и упрощения многих приложений НЛП.
  • Все модели обучены с использованием стохастического градиентного спуска и обратного распространения ошибки.
  • Основная цель word2vec — максимизировать точность при минимизации вычислительной сложности.
  • Можно обучать высококачественные векторы слов, используя очень простые архитектуры моделей, используя word2vec.
  • Приложения word2vec:

o В автоматическом расширении фактов в Базах Знаний

o Для проверки правильности существующих фактов

о Анализ настроений

o Обнаружение перефразирования

  • Из-за гораздо меньшей вычислительной сложности можно вычислить очень точные многомерные векторы слов из гораздо большего набора данных. Следовательно, вектор слов будет очень важным строительным блоком для будущих приложений НЛП.