Учебник по встраиванию слов

Что стоит за Word2vec

Краткое изложение идей и уравнений для встраивания слов

Область обработки естественного языка (NLP) требует знаний в области лингвистики, статистики и информатики. Таким образом, может быть сложно начать новое исследование или проект без значительных предварительных исследований в дисциплинах, с которыми вы менее знакомы. Также может быть сложно беспрепятственно перемещаться между этими дисциплинами, потому что их номенклатура и форматы уравнений различаются.

Я пришел к НЛП из статистики, чтобы узнать, как слова в наборе текстов (корпус) преобразуются в полезные данные в виде векторов (встраивания слов), как показано на рисунке. в следующих двух примерах:

aardvark [  0.7660651 -0.9571466 -0.4889298  ...  -0.1600012 ]
zulu     [ -0.4566793  0.7392789  0.5158788  ...   0.0398366 ]

Я хотел понять, что на самом деле измеряется, что является наиболее важным и что подвергается риску при преобразовании в векторные данные, сгенерированные алгоритмами в Word2vec, fastText и современных контекстуализированных представлениях слов.

По сути, что на самом деле представляют числа в значениях встраивания слов?

Кроме того, многие слова имеют несколько значений (смыслов), поэтому мне было особенно интересно узнать, как слово с несколькими значениями и только одним вектором, скажем, из 100 измерений, все еще может быть статистически достоверным. Затем я захотел иметь возможность запрограммировать свой собственный алгоритм обучения встраиванию слов на основе модели Word2vec, чтобы я мог исследовать смысловые представления.

Эта статья является первой из серии статей. Он знакомит с понятиями того, как слова соотносятся друг с другом через их близость в тексте, и с теорией, лежащей в основе создания данных о связях между словами. В этой серии я также переведу концепции НЛП из лингвистики и информатики в статистическую перспективу.

Большая часть сегодняшних разработок в НЛП сосредоточена на алгоритмах глубокого обучения искусственного интеллекта, но любой, кто приступает к работе в этой области, должен иметь четкое концептуальное представление обо всех строительных блоках.

Статьи в этой серии:

  1. Что стоит за Word2vec(эта статья)
    Обзор идей и уравнений для встраивания слов (7 минут чтения)
  2. Слова в векторах
    Концепции встраивания слов (13 минут чтения)
  3. Статистическая теория обучения
    Основы нейронных сетей (14 минут чтения)
  4. Классификатор Word2vec
    Как обучаются встраивания слов (15 минут чтения)
  5. Гиперпараметры Word2vec
    Набор креативных перевесов (6 минут чтения)
  6. Характеристики встраивания слов
    И проблема антонимов (11 мин чтения)

Прежде чем мы углубимся в НЛП и встраивание слов, давайте кратко рассмотрим ситуацию, приведшую к созданию Word2vec. Мы сосредоточимся на Word2vec, потому что он популяризировал используемый сегодня тип встраивания слов.

Близость слов как основа для определений слов

Одним из основных применений модели вычислительного языка является предсказание слов в предложении, как, например, в функции автозаполнения поисковых систем и приложений для обмена сообщениями:

Такие модели могут быть языковыми моделями, которые вероятностно предсказывают появление каждого слова путем составления таблиц всех последовательностей слов в большом корпусе текста, но с точки зрения реализации обработка и хранение всей этой информации нецелесообразны из-за объема данных. Например, размер даже простого набора данных, такого как матрица совпадения того, как часто пары слов встречаются вместе в каждом документе в наборе документов, будет равен квадрату общее количество уникальных слов, возможно, сотни тысяч слов в квадрате.

Вложения слов, которые представляют собой представления слов с использованием векторов, помогают уменьшить эти вычислительные проблемы. Вместо того, чтобы хранить всю информацию обо всех словах во всех документах, встраивание слов использует творческую обработку данных и методы уменьшения статистической размерности для аппроксимации взаимосвязей слов.

Интересным свойством этих современных машинных вложений слов является то, что, когда они применяются к языковым моделям, они предсказывают не только последовательности слов на основе частоты близости, но и, в некотором роде, значения слов.

Вложения слов — это проявление идеи философа Людвига Витгенштейна о том, что «значение слова — это его употребление в языке» (Wittgenstein, 1953). В 1957 году лингвист Джон Руперт Ферт конкретизировал это понятие следующим образом:

«Вы узнаете слово по компании, которую оно держит».

Таким образом, слово может быть определено через слова, с которыми оно обычно встречается. Например, поскольку слово «рок» может появляться, в зависимости от контекста, рядом с такими словами, как «земля» и «музыка», и земля, и музыка имеют какое-то отношение к определению рока. Сегодня эта концепция известна в лингвистике как гипотеза распределения (Perone, 2018).

«Но с точки зрения статистического НЛП более естественно думать, что значение находится в распределении контекстов, в которых используются слова и высказывания. … В соответствии с этой концепцией большая часть статистических исследований НЛП непосредственно занимается вопросами смысла».(Manning and Schütze, 1999)

Подобно тому, как словарь определяет все слова просто по их отношению друг к другу, матрица встраивания слов использует числовые значения для определения своих слов по их близости в использовании.

Почему модели данных начали вытеснять модели, основанные на правилах

Область обработки естественного языка (NLP) направлена ​​на то, чтобы компьютеры взаимодействовали с использованием человеческого языка. Было предпринято множество подходов для реализации человеческого языка в компьютерах, и идеи лингвистики развивались в зависимости от сложных компьютерных алгоритмов. Языковые модели, прочно основанные на языковой структуре, правилах и логике, часто слишком интенсивны или сложны для обработки, чтобы быть практичными, а ярлыки, которые хорошо работают в вычислительном отношении, часто имеют очевидные лингвистические недостатки.

Статистика играет заметную роль в эмпирическом НЛП не только в анализе данных письменного и устного языка, но и в теории статистического обучения, лежащей в основе машинного обучения, которое все чаще применяется для анализа больших корпусов (Stewart, 2019). Тем не менее ценность статистического НЛП была заметна еще до ускорения машинного обучения и искусственного интеллекта (ИИ).

«Статистические модели [НЛП] надежны, хорошо обобщают и корректно ведут себя при наличии ошибок и новых данных». (Мэннинг и Шютце, 1999 г.)

Дебют Word2vec: что сделало его таким трансформирующим

В 2013 году произошел всплеск энтузиазма в области НЛП с публикацией двух статей Миколова и соавт. в Google внедряют Word2vec (Миколов и др., 2013а; Миколов и др., 2013б). Word2vec использует неглубокую нейронную сеть для создания вложений слов, которые особенно хорошо работают с дополнительным преимуществом значительного повышения эффективности вычислений. С помощью Word2vec набор векторов слов может быть создан из относительно большого корпуса на любом языке с помощью всего лишь персонального компьютера. Другой важной особенностью Word2vec является наблюдение, что векторы слов группируют синонимы и родственные слова рядом в векторном пространстве. Кроме того, векторы обладают математическими свойствами. Например, складывая векторные значения, можно получить следующее знаменитое уравнение компьютерной лингвистики:

король – мужчина + женщина ≈ королева

В двух измерениях это уравнение может выглядеть следующим образом:

Эти векторы Word2vec улучшили многие приложения задач NLP, и последовало множество исследований для изучения свойств и последствий встраивания слов в нейронные сети. Идеи, порожденные в ходе этого исследования, в конечном итоге привели к созданию более мощных моделей ИИ с контекстно-зависимыми вложениями (такими как AllenNLP ELMo, GPT OpenAI и BERT Google).

Краткое содержание

В этой статье мы изучили теорию лингвистики, согласно которой близость слов в использовании связана со значением слова и что правила для естественного языка могут быть непрактичными для реализации. Мы также узнали, что использование близости слов для создания векторов слов может дать управляемый набор данных с полезными свойствами.

В следующей статье Слова в векторах мы рассмотрим основополагающие концепции создания вложений слов.

Эта статья была первой в серии Учебник по встраиванию слов:
1. Что стоит за Word2vec | 2. Слова в векторы |
3. Статистическая теория обучения | 4. Классификатор Word2vec |
5. Гиперпараметры Word2vec | 6. Характеристики встраивания слов

Подробнее по этой теме. Для каждой статьи этой серии я буду рекомендовать ключевой источник дополнительной информации по теме. Для этой статьи вам может особенно понравиться: Perone, C. S. (2018). Слововые представления НЛП и витгенштейновская философия языка. Терра инкогнита.

Рекомендации

Ферт, JR (1957). Краткий обзор лингвистической теории, 1930–1955 гг. В Ферте (редактор), Исследования в области лингвистического анализа, Специальный том Филологического общества, страницы 1–32. Оксфорд, Англия: Издательство Бэзила Блэквелла.

Мэннинг, К. и Шютце, Х. (1999). Основы статистической обработки естественного языка. Кембридж, Массачусетс: MIT Press.

Миколов Т., Коррадо Г., Чен К. и Дин Дж. (2013a). Эффективная оценка представлений слов в векторном пространстве. Доступен по адресу arXiv:1301:3781v3.

Миколов Т., Коррадо Г., Чен К., Суцкевер И. и Дин Дж. (2013b). Распределенные представления слов и фраз и их композиционность. Доступен по адресу arXiv:1310.4546v1.

Пероне, CS (2018). Слововые представления НЛП и витгенштейновская философия языка. Терра инкогнита.

Стюарт, М. (2019). Реальная разница между статистикой и машинным обучением. На пути к науке о данных.

Витгенштейн, Л. (1953). Философские исследования. Оксфорд, Англия: Издательство Бэзила Блэквелла.

*Рисунки и изображения предоставлены автором, если не указано иное.