Как компьютеры понимают слова

Компьютеры не понимают слова так, как мы. Они предпочитают работать с цифрами. Итак, чтобы помочь компьютерам понять слова и их значения, мы используем так называемые вложения. Эти вложения численно представляют слова как математические векторы.

Самое интересное в этих вложениях заключается в том, что если мы их выучим должным образом, слова, имеющие сходные значения, будут иметь схожие числовые значения. Другими словами, их номера будут ближе друг к другу. Это позволяет компьютерам улавливать связи и сходства между разными словами на основе их числового представления.

Одним из известных методов изучения встраивания слов является Word2Vec. В этой статье мы углубимся в тонкости Word2Vec и рассмотрим его различные архитектуры и варианты.

Word2Vec

В первые дни предложения были представлены векторами n-грамм. Эти векторы были направлены на то, чтобы уловить суть предложения, рассматривая последовательности слов. Однако они имели некоторые ограничения. Векторы N-грамм часто были большими и разреженными, что усложняло их создание с вычислительной точки зрения. Это создало проблему, известную как проклятие размерности. По сути, это означало, что в многомерных пространствах векторы, представляющие слова, были настолько далеки друг от друга, что стало трудно определить, какие слова действительно похожи.

Затем, в 2003 году, произошел значительный прорыв с введением нейронно-вероятностной языковой модели. Эта модель полностью изменила то, как мы представляем слова, используя то, что называется непрерывными плотными векторами. В отличие от векторов n-грамм, которые были дискретными и разреженными, эти плотные векторы предлагали непрерывное представление. Даже небольшие изменения в этих векторах приводили к осмысленным представлениям, хотя они могли не соответствовать напрямую конкретным английским словам.

Опираясь на этот захватывающий прогресс, в 2013 году появилась платформа Word2Vec. Она представила мощный метод кодирования значений слов в непрерывные плотные векторы. В Word2Vec были представлены две основные архитектуры: Continuous Bag of…