Встраивание слов в вложение многозначности

О моем исследовательском проекте

Это блог о моем последнем проекте, и он будет как можно короче (надеюсь).

Обработка естественного языка (NLP) - это способ соединения компьютерного языка с человеческим языком. Это не самое точное определение, но оно поможет лучше понять встраивание слов.

Первоначально НЛП запускается с присвоения уникального идентификатора слову. Таким образом мы смогли однозначно идентифицировать слово, но этого было недостаточно для обработки естественного языка. Затем мы начинаем предсказывать язык. Именно здесь Томаш Микалов в 2013 году придумал свою модель встраивания слов. Итак, давайте посмотрим на встраивание слов.

Встраивание слов - это встраивание слова в вектор. Таким образом, все слова будут представлены вектором в определяемом пользователем векторном пространстве. Эти векторы могут быть вектором с размерностью 100 или вектором с размерностью 300 или чем угодно, что пожелает пользователь. Это дает вам представление о векторном измерении, используемом в текстовом редакторе, а не только в 2D или 3D, которые вы слышите в повседневной жизни.

Встраивание слов основано на концепции, согласно которой контекст определяет слово. Это означает, что характеристики слова можно определить по контексту. Рассмотрим пример. «Освободившиеся пятьдесят оттенков - это неудовлетворительно __________ серии». Пустое слово может быть кульминацией, заключением, концом и т. Д. Итак, мы смогли предсказать слово из контекста. Это концепция обучения модели встраивания слов. (Это команда, о которой мы поговорим позже)

Машинное обучение используется для обучения модели указанным выше способом. Сначала корпус будет предварительно обработан на основе требований и данных. Затем мы запускаем машинное обучение на основе этих данных. Делается это с учетом окна. Окно размера K - это окно с k словами, ближайшими к целевому слову (не совсем). Итак, мы рассматриваем контекст в окне, чтобы определить вектор для этого слова.

Тогда обучение можно проводить двумя способами.

Cbow - предсказание слова из контекста
Skipgram - определение контекста по слову

Таким образом, мы сможем обучить модель и получить слово «встраивание». Снова рассмотрите вложение слова как карту или словарь, где слово отображается в вектор. Хотя процесс обсуждается, что же на самом деле происходит за кадром?

Мы можем рассматривать вложение слов как каркас с пружинами. Целевое слово будет связано со словами в контексте. Чем чаще слово a появляется в контексте целевых слов, k пружины будет увеличиваться. После вложения рассмотрим это пространство в состоянии равновесия. У вас будут слова, связанные с другими словами с пружинами разных k. Это создает сильную связь (высокий k) со связанными словами, и в конечном итоге похожие слова становятся ближе в векторном пространстве. Кроме того, это относительная структура, в которой положение слова зависит от других слов. Затем подумайте о корректировке точки в этой структуре. Поскольку все слова связаны с пружинами, регулировка точки повлияет на все точки, которые прямо или косвенно связаны. Так ведет себя структура вложения слов.

Встраивание слов отражает многие характеристики языка.

Семантические отношения фиксируются во встраивании.

Словесные аналогии фиксируются. (например: вектор (король) - вектор (мужчина) + вектор (женщина) = вектор (королева))
Языковая структура зафиксирована

Так что, конечно, встраивание слов - это прорыв в НЛП. Но при чем тут наш проект?

В нашем проекте основное внимание уделяется основным ограничениям встраивания слов. Это устранение неоднозначности. Поскольку встраивание слов включает слово с вектором, все характеристики слова будут захвачены одним вектором. Основным элементом встраивания слов является слово. Итак, мы планируем реализовать модель встраивания смыслов, в которой каждое чувство будет внедрено вектором. Таким образом, если слово имеет 3 значения, слово будет вложено в 3 вектора. Поскольку большинство характеристик одного и того же слова различаются в зависимости от смысла, вложение смысла даст лучший результат, чем вложение слова. Хотя некоторые исследования проводятся в области внедрения смыслов, мы будем строить итеративную модель, которая сможет точно встраивать чувства. Далее мы предоставим методы для однозначной идентификации смысла из смыслового вложения, что является огромной проблемой в смысловом встраивании.

Встраивание слов в вложение многозначности

О моем исследовательском проекте

Вопросы по теме