О моем исследовательском проекте

Это блог о моем последнем проекте, и он будет как можно короче (надеюсь).

Обработка естественного языка (NLP) - это способ соединения компьютерного языка с человеческим языком. Это не самое точное определение, но оно поможет лучше понять встраивание слов.

Первоначально НЛП запускается с присвоения уникального идентификатора слову. Таким образом мы смогли однозначно идентифицировать слово, но этого было недостаточно для обработки естественного языка. Затем мы начинаем предсказывать язык. Именно здесь Томаш Микалов в 2013 году придумал свою модель встраивания слов. Итак, давайте посмотрим на встраивание слов.

Встраивание слов - это встраивание слова в вектор. Таким образом, все слова будут представлены вектором в определяемом пользователем векторном пространстве. Эти векторы могут быть вектором с размерностью 100 или вектором с размерностью 300 или чем угодно, что пожелает пользователь. Это дает вам представление о векторном измерении, используемом в текстовом редакторе, а не только в 2D или 3D, которые вы слышите в повседневной жизни.

Встраивание слов основано на концепции, согласно которой контекст определяет слово. Это означает, что характеристики слова можно определить по контексту. Рассмотрим пример. «Освободившиеся пятьдесят оттенков - это неудовлетворительно __________ серии». Пустое слово может быть кульминацией, заключением, концом и т. Д. Итак, мы смогли предсказать слово из контекста. Это концепция обучения модели встраивания слов. (Это команда, о которой мы поговорим позже)

Машинное обучение используется для обучения модели указанным выше способом. Сначала корпус будет предварительно обработан на основе требований и данных. Затем мы запускаем машинное обучение на основе этих данных. Делается это с учетом окна. Окно размера K - это окно с k словами, ближайшими к целевому слову (не совсем). Итак, мы рассматриваем контекст в окне, чтобы определить вектор для этого слова.

Тогда обучение можно проводить двумя способами.

  • Cbow - предсказание слова из контекста
  • Skipgram - определение контекста по слову

Таким образом, мы сможем обучить модель и получить слово «встраивание». Снова рассмотрите вложение слова как карту или словарь, где слово отображается в вектор. Хотя процесс обсуждается, что же на самом деле происходит за кадром?

Мы можем рассматривать вложение слов как каркас с пружинами. Целевое слово будет связано со словами в контексте. Чем чаще слово a появляется в контексте целевых слов, k пружины будет увеличиваться. После вложения рассмотрим это пространство в состоянии равновесия. У вас будут слова, связанные с другими словами с пружинами разных k. Это создает сильную связь (высокий k) со связанными словами, и в конечном итоге похожие слова становятся ближе в векторном пространстве. Кроме того, это относительная структура, в которой положение слова зависит от других слов. Затем подумайте о корректировке точки в этой структуре. Поскольку все слова связаны с пружинами, регулировка точки повлияет на все точки, которые прямо или косвенно связаны. Так ведет себя структура вложения слов.

Встраивание слов отражает многие характеристики языка.

  • Семантические отношения фиксируются во встраивании.

  • Словесные аналогии фиксируются. (например: вектор (король) - вектор (мужчина) + вектор (женщина) = вектор (королева))
  • Языковая структура зафиксирована

Так что, конечно, встраивание слов - это прорыв в НЛП. Но при чем тут наш проект?

В нашем проекте основное внимание уделяется основным ограничениям встраивания слов. Это устранение неоднозначности. Поскольку встраивание слов включает слово с вектором, все характеристики слова будут захвачены одним вектором. Основным элементом встраивания слов является слово. Итак, мы планируем реализовать модель встраивания смыслов, в которой каждое чувство будет внедрено вектором. Таким образом, если слово имеет 3 значения, слово будет вложено в 3 вектора. Поскольку большинство характеристик одного и того же слова различаются в зависимости от смысла, вложение смысла даст лучший результат, чем вложение слова. Хотя некоторые исследования проводятся в области внедрения смыслов, мы будем строить итеративную модель, которая сможет точно встраивать чувства. Далее мы предоставим методы для однозначной идентификации смысла из смыслового вложения, что является огромной проблемой в смысловом встраивании.