Учебник по встраиванию слов

Слова в векторах

Понятия для встраивания слов

Эта статья является второй в серии Учебник по встраиванию слов:
1. Что стоит за Word2vec | 2. Слова в векторах |
3. Статистическая теория обучения | 4. Классификатор Word2vec |
5. Гиперпараметры Word2vec | 6. Характеристики встраивания слов

Первая статья, Что стоит за Word2vec, представила серию статей и заложила основу для встраивания слов. В этой статье мы рассмотрим основополагающие концепции НЛП, которые привели к современным встраиваниям слов.

Введение в НЛП, управляемое данными

В то время как лингвистика, изучение языка, задумывалась с самых первых человеческих писаний, а обработка естественного языка (НЛП) разрабатывалась с самых первых компьютеров, только в 1990-х годах произошла «статистическая революция» в НЛП. Джонсон, 2009). Эта эра ознаменовала изменение фокуса НЛП с символических алгоритмов или алгоритмов, основанных на правилах, таких как грамматика или синтаксис, на методы, основанные на данных, которые сочетали машинное обучение на более мощных компьютерах с большими корпусами, доступными через Интернет.

Согласно Нивре (2002), статистика задействована в НЛП тремя основными методами:

  1. Применение: когда алгоритм, применяемый к стохастической модели, является детерминированным.
  2. Приобретение: когда модели используют выводы на основе эмпирических данных.
  3. Оценка: включает описательную статистику, оценку и проверку гипотез.

«Статистическая революция», которую обсуждает Джонсон (2009), в основном касается методов приобретения.

Далее мы рассмотрим методы сбора статистических данных, которые привели к применению методов машинного обучения в НЛП.

Слова имеют основное значение в письменном документе. Хотя пунктуация, заглавные буквы, символы, орфография, компоновка, форматирование, шрифты/почерк и иллюстрации также передают значение и даже могут применяться к векторам или интегрироваться в векторы слов, большая часть ценности заключается в словах и их последовательности.

Матрицы на основе частот

Идея использования векторов в компьютерной обработке языка для представления слов восходит как минимум к 1975 году, когда Salton et al. (1975) опубликовали фундаментальную работу, в которой представили концепцию модели векторного пространства. Простейшая модель векторного пространства — это вектор one-hot, в котором цифра 1 используется в ячейке вектора 1×v, чтобы показать наличие уникального слова в словарь v со всеми остальными ячейками как 0.

Мы представим следующие три дополнительных примера того, как слова могут быть представлены векторами для использования в компьютерной обработке языка (NSS, 2017):

  1. Количество слов
  2. Частота термина – обратная частота документа (TF-IDF)
  3. Сосуществование

Методы языкового моделирования, использующие эти модели векторного пространства, известны как подходы на основе подсчета, поскольку они используют суммы значений глобальных вхождений слов (Almeida and Xexéo, 2019; Levy et al., 2015).

Количество слов

При сборе данных о словах для распределенных представлений слов можно начать с простого подсчета слов в серии документов. Сумма количества появлений каждого слова в документе представляет собой вектор счета. Например:

Вектор подсчета — это базовая описательная статистика слов, представленных в документах, размерность v×d, где v — число слов в словаре, а d — количество документов. Каждую строку этой матрицы можно рассматривать как вектор слов длины d, и это разреженная матрица.

Частота термина – обратная частота документа (TF-IDF)

Более важной описательной статистикой для документа является относительная частота встречаемости слова в документе, то есть частота появления слова в документе по отношению к частоте его появления во всем корпусе в целом. Это значение полезно при определении того, насколько важно слово в документе, например, для ранжирования текстовой поисковой системы.

Типичный способ вычисления значения относительной частоты известен как Частота термина – обратная частота документа (TF-IDF) и определяется как умножение TF×IDFв соответствии с различными формулами, но чаще всего используются следующие две формулы (Voita, 2020):

где t — термин или слово, d — документ, n — количество вхождений t в d, N — количество вхождений t во всех документах, D — общее количество документов , и |{dD : td}| количество документов, в которых встречается t.

Существуют и другие варианты этих формул для статистики TF и IDF. Примечательным аспектом формулы IDF является последовательное использование логарифма во всех вариациях, что имеет теоретическое обоснование в теории информации (Robertson, 2004), особенности которой были формально разработаны после TF- IDF стал широко использоваться в Интернете для поиска.

Вывод здесь заключается в том, что значение TF-IDF было чрезвычайно полезным, поскольку оно представляет собой переоценку исходной статистики.

Размерность вектора слова TF-IDF совпадает с размерностью вектора счета: v×d. Каждая строка матрицы может использоваться как вектор слов длины d.

Сосуществование

Теперь давайте рассмотрим пример совпадения матрицы. На рисунке ниже представлена ​​таблица, показывающая, как часто два слова встречаются вместе в каждом документе в корпусе. Эту таблицу также можно рассматривать как матрицу размера v×v, которая не зависит от количества документов. Поскольку матрица количественно определяет близость слов, значения указывают на значение слова в соответствии с гипотезой распределения в лингвистике (Firth, 1957).

Каждая строка этой матрицы может использоваться как вектор слов длины v, где v — словарь. Матрица представляет собой модель близости слов и является более плотной матрицей, чем показанная ранее матрица подсчета слов.

Но матрицу совпадений не обязательно использовать исключительно для слов в документе. Вместо этого можно было посмотреть на слова, объединенные в пары в абзацах, предложениях или в окне из определенного количества слов. Оказывается, установка соответствующего размера окна очень важна. Мы обсудим размер окна в разделе ниже, озаглавленном «Экспериментальные аспекты проектирования».

Тем не менее, матрица совпадений не настолько плотна, как хотелось бы, потому что большинство значений повторяются, поэтому можно применять методы уменьшения размерности без потери значительной информации, как мы увидим в разделе ниже под названием «Уменьшение размерности».

Существует множество способов формирования векторов подсчета слов, в зависимости от того, что моделируется. Для контекста есть еще несколько векторов счета: слово × контекст дискурса, фонологический сегмент × значения признаков и слово × синтаксический контекст (Potts and MacCartney, 2019).

Перевесы

Ранее мы обсуждали TF-IDF, где idf добавляет вес к значениям количества слов. Значения TF-IDF являются примером повторного взвешивания, которое можно использовать для концентрации информации в векторе слов.

Повторное взвешивание в модели векторного пространства обычно включает корректировку частоты слов, как мы видели с TF-IDF. В случае с естественным языком необработанное количество слов сильно зависит от того, что частота слов имеет тенденцию следовать закону Ципфа, то есть она почти линейна при построении графика log(rank) и log(частота).

Задача повторного взвешивания состоит в том, чтобы обеспечить адекватное представление информации о нечастых словах без внесения аномалий из-за увеличения выбросов данных. Примеры формул повторного взвешивания для векторов на основе подсчета включают (Potts and MacCartney, 2019):

  1. Нормализация: евклидова или L² нормировка (норма L2) векторных значений.
  2. Вероятность: представление векторных значений в виде вероятности P(d|t), в сумме равной 1.
  3. Наблюдаемые/ожидаемые: O/E и связанные χ² или G-критериистатистика
  4. TF-IDF: см. раздел выше, где указано, что варианты TF-IDF учитывают эмпирическое распределение слов.
  5. PMI: точечная взаимная информация
  6. PPMI: положительная точечная взаимная информация

Приведенные выше формулы повторного взвешивания применяются к векторам количества слов, где t — это слово, а d — документ.

Какую формулу повторного взвешивания использовать, зависит от приложения. В статье Понимание естественного языка Поттс называет PMI «героем истории» (Potts and MacCartney, 2019), потому что он позволяет лучше понять процесс обработки естественного языка. Формула PMI:

где P(t,d) — вероятность слова tи документа d встречаются вместе, P(t) — это вероятность появления слова, а P(d) - вероятность появления документа. PMI количественно определяет несоответствие между вероятностью возникновения двух событий при их совместном распределении и их индивидуальным распределениям, если события независимы. Поскольку PMI трудно определить, когда индивидуальные вероятности становятся очень малыми, PPMI используется чаще (Jurafsky and Martin, 2019). PPMI заменяет отрицательные значения PMI на 0.

Вопросы экспериментального дизайна

Масштабирование окна — это концепция, связанная с повторным взвешиванием и связанная со способом сбора данных. В примере матрицы совпадения совпадение слов измеряется и записывается для каждого документа. Если область совпадения изменена на разделы или абзацы, а не на весь документ, результирующая матрица будет другой. На самом деле контекстные окна обычно измеряются как определенное количество слов, например ±10. Учитываются ли слова, когда они появляются в отдельных предложениях или включают знаки препинания, являются другими соображениями.

Важным аспектом подсчета слов для создания векторов слов являются критерии, используемые для предварительной обработки документов. Например:

  • Должны ли быть добавлены или удалены знаки препинания?
  • Следует ли удалить заглавные буквы, чтобы слова считались одинаковыми, даже если использование заглавных букв в некоторых словах может изменить их значение?
  • Следует ли запускать сценарий распознавания именованных объектов для классификации имен по заранее определенным категориям, таким как имена людей, названия компаний и названия улиц?
  • Следует ли маркировать части речи, чтобы можно было различать глагольные и существительные формы слова, например «бежать»?
  • Следует ли модифицировать глаголы так, чтобы все времена глагола были одинаковыми (например, лемматизация или формирование корня)? (Предварительная обработка глаголов часто выполняется путем удаления окончания «ed» глаголов в английском языке.)
  • Что делать с опечатками и редкими словами?
  • Следует ли удалить очень распространенные слова, такие как «the» и «a»?
  • Должны ли быть включены смайлики? 🤔

На эти вопросы необходимо ответить при принятии решения о том, следует ли предварительно обрабатывать документы, чтобы подготовить их к обучению встраиванию слов, и если да, то каким образом.

Такие простые вещи, как начало и конец слова, также не всегда ясны. В английском языке пробелы обычно разделяют слова, но дефисы помогают создавать сложные слова. С другой стороны, в немецком языке сложные слова не пишутся через дефис и могут быть довольно длинными, как, например, в написании числа 123 456:

айнхундертдрейундцванцигтаусендвирхундертчехсундфюнфциг

Кроме того, стоит ли даже не рассматривать «слова» как базовую единицу измерения вектора, а вместо этого рассматривать группы букв (символьные n-граммы), чтобы найти шаблоны значений?

Принятие соответствующих решений о том, как предварительно обрабатывать документы, является важным аспектом экспериментального дизайна, который зависит от создаваемого приложения и языковой модели.

Меры расстояния

Как только векторы слов разработаны и созданы из данных, как измерить их сходство? То есть, если языковая модель предсказывает слово с определенной оценкой вектора, как найти ближайшее слово, зная его вектор в наборе данных?

Эвклидово расстояние – это геометрический стандарт для векторов. Его уравнение:

где a и b — два вектора размера n. Однако в модели векторного пространства, где регистрируется частотность слов, более часто встречающиеся слова, как правило, имеют большую величину, что часто затрудняет сравнение слов (Jurafsky and Martin, 2019). Геометрически, когда направление вектора является единственной мерой, можно использовать косинусное сходство, которое является наиболее распространенным показателем, используемым для измерения сходства вложений слов (Jurafsky and Martin, 2019; Turney and Pantel, 2010). . Уравнение косинусного подобия:

Здесь точечный символ указывает скалярное произведение вектора (выделено жирным шрифтом), а двойная вертикальная линия указывает L² норму вектора, которая используется в знаменателе для нормализации величины. Значения варьируются от -1, что означает прямо противоположное, до 1, что означает точно такое же.

На следующем рисунке показано, как евклидово расстояние и косинусное сходство могут противоречить друг другу при определении ближайшего соседа.

Обратите внимание, что если косинусное сходство нормализуется путем вычитания среднего, оно становится коэффициентом корреляции Пирсона. Как и косинусное сходство, коэффициент корреляции Пирсона колеблется от -1 до 1, но это мера количества линейных отношений, которые не зависят от местоположения и масштаба.

Чтобы преобразовать косинусное сходство в меру «расстояния», где большее расстояние обозначается большим числом, можно рассмотреть возможность использования:

Но обратите внимание, что эта мера не является «правильной» мерой расстояния. Согласно Поттсу и Маккартни, истинное расстояние должно быть симметричным, равным 0 для идентичных векторов и должно удовлетворять неравенству треугольника (Potts and MacCartney, 2019). Таким образом, косинусное сходство должно быть преобразовано в угловое расстояние, которое находится в диапазоне от 0 до 1:

Дополнительные меры расстояния, правильные или нет, которые использовались в литературе для векторов слов (Potts and MacCartney, 2019):

  • Методы сопоставления, связанные с пересечением, в том числе: сопоставление, жаккард, игра в кости и перекрытие.
  • Методы расхождения Кульбака-Лейблера (KL), связанные с информацией Фишера, для получения вероятностей, в том числе: расхождение KL, симметричное расхождение KL и расхождение Дженсена-Шеннона, а также KL с перекосом

Какую меру расстояния выбрать, зависит от того, что необходимо подчеркнуть для приложения. В статистическом НЛП больше проб и ошибок, чем статистической чистоты измеренных результатов.

Уменьшение размерности

Визуализации помогают нам понять векторные отношения, уменьшая гиперпространственные данные до двух или трех измерений, которые визуально показывают доминирующие отношения. В статистике часто используется анализ основных компонентов (PCA), в котором векторы отображаются линейно в двумерной плоскости, где дисперсия данных максимальна.

t-distributed Stochastic Neighbor Embedding (t-SNE) – это алгоритм машинного обучения для визуализации, опубликованный в 2008 году Ван Дер Маатен и Хинтон с целью « очень хорошо фиксирует большую часть локальной структуры многомерных данных, а также выявляет глобальную структуру, такую ​​как наличие кластеров в нескольких масштабах» (Ван дер Маатен и Хинтен, 2008). Обычно используется t-SNE для визуализации набора взаимосвязей слов или даже для получения высокоуровневого представления большого набора взаимосвязей слов.

PCA и t-SNE — это методы уменьшения размерности, которые хорошо известны для визуализации векторов в двух или трех измерениях, но их также можно использовать для уменьшения количества измерений вектора слова до любого меньшего числа. размеры.

Дополнительные методы уменьшения размерности для модели векторного пространства включают (Potts and MacCartney, 2019):

  1. Разложение по сингулярным числам (SVD)
  2. LSA (также известный как LSI), который использует усеченный SVD
  3. Неотрицательная матричная факторизация (NMF)
  4. Вероятностный АЛП (PLSA)
  5. Скрытое распределение Дирихле (LDA)
  6. Автоэнкодеры с использованием нейронных сетей

Методы уменьшения размерности привели к внедрению слов на основе прогнозирования машинного обучения, наиболее заметным ранним методом был Word2vec, который мы подробно обсудим в будущих статьях после введения в теорию статистического обучения.

Краткое содержание

В этой статье мы узнали, как использовать вектор для количественной оценки отношений близости слов в тексте, как измерять эти отношения и как максимизировать удобство использования данных с помощью методов уменьшения размерности и машинного обучения.

В следующей статье этой серии, Статистическая теория обучения, мы рассмотрим математическую теорию для понимания классификатора неглубокой нейронной сети, такого как Word2vec.

Эта статья была второйⁿᵈ в серии Учебник по встраиванию слов:
1. Что стоит за Word2vec | 2. Слова в векторах |
3. Статистическая теория обучения | 4. Классификатор Word2vec |
5. Гиперпараметры Word2vec | 6. Характеристики встраивания слов

Подробнее по этой теме:ресурс, который я рекомендую для получения дополнительной информации об основах встраивания слов, — это онлайн-курс по информатике в Стэнфордском университете: Potts, C. and MacCartney, B. (2019). Понимание естественного языка CS224U.

Рекомендации

Алмейда, Ф. и Ксекео, Г. (2019). Вложения слов: обзор. Доступно по адресу arXiv:1901.09069v1.

Ферт, JR (1957). Краткий обзор лингвистической теории, 1930–1955 гг. В Ферте (редактор), Исследования в области лингвистического анализа, Специальный том Филологического общества, страницы 1–32. Оксфорд, Англия: Издательство Бэзила Блэквелла.

Джонсон, М. (2009). Как статистическая революция меняет (вычислительную) лингвистику. Материалы Европейского отделения Ассоциации компьютерной лингвистики, 2009 г., семинар по взаимодействию между лингвистикой и компьютерной лингвистикой: добродетельный, порочный или пустой?, страницы 3–11. ПДФ.

Джурафски Д. и Мартин Дж. (2019). Обработка речи и языка: введение в обработку естественного языка, компьютерную лингвистику и распознавание речи. Прентис Холл, Третье издание, проект 2019 г..

Леви, О., Голдберг, Ю., и Даган, И. (2015). Улучшение дистрибутивного подобия с помощью уроков, извлеченных из вложений Word. В Transactions of the Association for Computational Linguistics, 3:211–225. Доступен в doi 10.1162/tacl_a_00134.

Нивр, Дж. (2002). О статистических методах обработки естественного языка. В Бубенко, Дж. и Ванглер. Б. (ред.) Продвижение ИТ. Вторая конференция по продвижению исследований в области ИТ в новых университетах и ​​университетских колледжах Швеции, страницы 684–694. Университет Шёвде.

НСС (2017). Интуитивное понимание встраивания слов: от векторов подсчета до Word2Vec. Аналитика Vidhya.

Поттс, К. и Маккартни, Б. (2019). CS224U Понимание естественного языка, онлайн-курс по информатике. Стэнфорд, Калифорния: Стэнфордский университет.

Робертсон, С. (2004). Понимание обратной частоты документа: теоретические аргументы в пользу IDF. Journal of Documentation, 60(5):503–520. Доступен в doi 10.1108/00220410410560582.

Солтон Г., Вонг А. и Ян К. С. (1975). Модель векторного пространства для автоматического индексирования. Сообщения ACM, 18(11):613–620. Доступно по адресу 10.1145/361219.361220.

Терни, П. Д. и Пантел, П. (2010). От частоты к смыслу: модели векторного пространства семантики. Журнал исследований искусственного интеллекта, 37:141–188. ПДФ.

Ван дер Маатен, Л. и Хинтон, Г. (2008). Визуализация данных с использованием t-SNE. Journal of Machine Learning Research, 9:2579–2605. ПДФ.

Войта, Л. (2020). Курс по обработке естественного языка: встраивание слов. Гитхаб.

*Рисунки и изображения предоставлены автором, если не указано иное.