Проект докторской диссертации

Абстрактный

Вы можете найти версию в формате .pdf здесь.

Предисловие

В настоящее время мир хранит и обменивается беспрецедентными объемами информации в виде текста; однако, хотя у нас также есть беспрецедентные вычислительные мощности, наша способность обрабатывать эту информацию ограничена нашей способностью вычислительного декодирования грамматики человеческого языка. На самом деле существуют алгоритмы, которые могут распознавать синтаксические шаблоны в языке и учиться делать это для любого языка, тренируясь только на текстовых образцах, не обращаясь к правильному синтаксическому анализу. Такие алгоритмы называются парсерами без присмотра.

Неконтролируемые синтаксические анализаторы еще недостаточно хорошо работают для широкого использования. Большинство работает, предполагая, что неуправляемые вероятностные паттерны языка генерируются гораздо более простыми скрытыми синтаксическими структурами. Чтобы вывести эти скрытые структуры, синтаксические анализаторы сначала наблюдают за словами в обучающем тексте, а затем определяют лежащую в их основе синтаксическую структуру — обычно дерево фразовой структуры или дерево зависимостей — которая, скорее всего, генерирует каждое предложение. Эти результаты затем оцениваются по сравнению с синтаксическими структурами, аннотированными лингвистами. Это оказалось трудной задачей. Методы логического вывода становятся все более изощренными, но производительность еще не значительно улучшилась.

Редко исследуется возможность того, что проблема может заключаться в чрезмерной простоте самих синтаксических структур. Традиционный подход накладывает чистые категории на беспорядочную сложность человеческого языка, превращая слова с различным синтаксическим поведением в единообразные части речи, обозначая фразы с разными свойствами как составные части и признавая различные виды синтаксических отношений в качестве зависимостей. Результирующие категории и структуры могут быть простыми по форме, но их разнообразный состав затрудняет их идентификацию или интерпретацию. Действительно, разногласия по поводу такого анализа распространены даже среди лингвистов, чей анализ является «золотым стандартом», по которому оцениваются синтаксические анализаторы.

Что нам нужно, так это модель, которая может описывать большие вариации с помощью простых, точно определенных концепций. С этой целью я предлагаю градиентную синтаксическую модель. Вместо частей речи эта модель измеряет степень сходства между словами на основе количества общих контекстов. Каждое слово имеет уникальное соседство слов, сходство которых с ним находится в пределах определенного порога. Модель также количественно определяет связность фраз, сравнивая их относительную частоту с тем, какой она была бы, если бы слова, входящие в их состав, встречались независимо друг от друга. Помимо соседства, фразы имеют две метрики сходства. Наконец, модель измеряет условные вероятности между всеми комбинациями слов, фраз и их окрестностей. Они используются для расчета оценки грамматичности предложения.

Синтаксическая модель градиента обеспечивает гораздо более богатый градиентный анализ, чем дискретные структуры, основанный на четко определенных концепциях. Он ни в коем случае не завершен, и предстоит еще много работы. Тем не менее, он указывает новый путь вперед в неконтролируемом синтаксическом анализе, к использованию моделей градиента, которые лучше подходят для обработки естественного языка.

Хотя этот черновик диссертации так и не был защищен и не помог мне получить высшее образование, я все же хотел бы им поделиться. Во-первых, я потратил на это более трех лет. Но что еще более важно, он развивает идею, в ценность которой я до сих пор твердо верю: использование количественных мер градиента вместо традиционных категорий и бинарных отношений может увеличить предсказательную силу лингвистических моделей и позволить им использовать естественные ( человеческий) язык машинами.

Обычные дискретные модели были разработаны, чтобы помочь лингвистам анализировать и сравнивать структуру языка. Они делают это, упрощая сложность языка, обеспечивая представление высокого уровня, но с низким разрешением. Сегодня вычислительные алгоритмы, анализирующие грамматическую структуру, известные как парсеры, по-прежнему в основном полагаются на эти дискретные модели. Но с точки зрения мощности эти модели не могут сравниться с языковыми моделями в нашем мозгу, которые позволяют нам ежедневно воспроизводить и понимать язык.

С тех пор, как я начал эту работу в 2014 году, в области языкового моделирования произошло много интересных событий. В феврале 2019 года исследовательский институт OpenAI выпустил GPT-2, языковую модель глубокого обучения, которая, как сообщается, может создавать поразительно связные тексты, просто начав с короткой фразы или предложения, а затем непрерывно предсказывая следующее слово. В то время как коммерческие приложения все еще неуловимы, потенциал этой технологии велик до такой степени, что это несколько тревожит.

Между тем, этот количественный, недискретный подход к структуре языка не только полезен технологически, но и может значительно улучшить наше понимание лингвистики. Модель с высоким разрешением может выявить закономерности и взаимосвязи, скрытые дискретными моделями с низким разрешением. Это также заставляет нас быть более точными в отношении таких понятий, как грамматические отношения, части речи и границы слов.

Данный проект диссертации является лишь первым исследовательским шагом в этом направлении. Предстоит много работы. Я размещаю свою работу здесь, на Medium, в надежде, что она найдет других, кто сможет использовать ее для лучшего понимания синтаксиса. Для меня это было бы большим достижением, чем получение степени.

Список таблиц

Абстрактный

Предисловие

Сокращения: набор тегов Penn Treebank

1. Введение

1.1 Подход, основанный на использовании

1.2 Цель и объем диссертации

1.3 План диссертации

2 Текущие модели в неконтролируемом синтаксическом анализе

2.1 Части речи
2.1.1 В лингвистическом описании
2.1.2 В неконтролируемых алгоритмах POS-индукции
2.1.3 В неконтролируемом синтаксическом анализе

2.2 Синтаксические отношения
2.2.1 Составные части в лингвистических описаниях
2.2.2 Зависимости в лингвистических описаниях
2.2.3 Составные части и зависимости в неконтролируемом синтаксическом анализе

2.3 Переосмысление дискретных синтаксических моделей

3. Градиентная синтаксическая модель

3.1 Лексико-синтаксическое поведение
3.1.1 Контекстное сходство
3.1.2 Оценка
3.1.3 Обсуждение

3.2 Фразы
3.2.1 Согласованность фраз
3.2.2 Сравнение фраз

3.3 Условные вероятности
3.3.1 Условные вероятности
3.3.2 Грамматичность
3.3.3 Оценка

4. Выводы

4.1 Взносы

4.2 Путь вперед

использованная литература

список рисунков

Рисунок 2.1: Иллюстрация примера алгоритма EM (взято из Do and Batzoglou 2008)
Рисунок 2.2: Дерево избирательных округов для предложения Заработная плата на заводе упала в сентябре (взято из Klein and Manning 2002:129)
Рисунок 2.3. Набор деревьев и поддеревьев, сгенерированных в U-DOP для предложений наблюдай за собакой и собака лает (взято из Bod 2009:762)
Рисунок 2.4. Дерево зависимостей для предложения Заводские платежные ведомости упали в сентябре (Klein and Manning 2002:129)
Рисунок 2.5. Шаги построения дерева зависимостей на рисунке 2.4, в DMV
Рисунок 2.6: Три типа структур синтаксического анализа (взято из Klein and Manning 2004:129)
Рисунок 3.1: Точность в K для десяти слов, выбранных для оценки
Рисунок 3.2: Как расстояний Жаккара используются для расчета последовательных расстояний. Рисунок 3.3: Оценки грамматики 20 предложений в оценке
Рисунок 3.4: Визуальное представление градиентного анализа, предложение 1
Рисунок 3.5: Комбинированное представление структуры фразы и анализа зависимостей, предложение 1
Рисунок 3.6: Градиентный и дискретный анализ 20 оцененных предложений

Сокращения: набор тегов Penn Treebank

Ниже приведен список тегов части речи, используемых в Penn Treebank:

1. Введение

ᴄᴄ — Сочинительный союз
ᴄᴅ — Числительное
ᴅᴛ — Определитель
ᴇx — Экзистенциальный there
ꜰw — Иностранное слово
ɪɴ — Предлог или подчинительный союз
ᴊᴊ — Прилагательное
ᴊᴊr — Прилагательное в сравнительной степени
ᴊᴊꜱ — Прилагательное в превосходной степени
ʟꜱ— Маркер элемента списка
ᴍᴅ — Модальное слово
ɴɴ — Существительное в единственном числе или в массе
ɴɴꜱ — Существительное, множественное число
ɴɴᴘ — Существительное собственное, единственное число
ɴɴᴘꜱ — Существительное собственное, множественное число
ᴘᴅᴛ — Предопределение
ᴘoꜱ — Притяжательное окончание
ᴘʀᴘ — Личное местоимение< br /> ᴘʀᴘ$ — Притяжательное местоимение
ʀʙ— Наречие
ʀʙʀ— Наречие в сравнительной степени
ʀʙꜱ— Наречие в превосходной степени
ʀᴘ— Частица
ꜱʏᴍ — Символ
ᴛo — to
ᴜʜ — междометие
ᴠʙ — глагол, основная форма
ᴠʙᴅ — глагол, прошедшее время
ᴠʙɢ — глагол, герундий или причастие настоящего времени
ᴠʙɴ — глагол , причастие прошедшего времени
ᴠʙᴘ — Глагол, не 3-е лицо единственного числа настоящего времени
ᴠʙz — Глагол, 3-е лицо единственного числа настоящего времени
wᴅᴛ — Wh-определитель
wᴘ — Wh-местоимение
wᴘ$ — притяжательное wh-местоимение
wʀʙ — Wh-наречие

«Il ne faut pas avoir peur d'aller trop loin, car la vérité est au-delà».
«Мы никогда не должны бояться зайти слишком далеко, ибо истина лежит прямо за ним. ”

— Марсель Пруст

За последние несколько десятилетий, когда использование компьютеров и Интернета становится все более распространенным, огромное количество информации в виде оцифрованного текста стало легко доступным. Это привело к росту популярности корпусной лингвистики, изучения языка посредством анализа языковых корпусов. Лингвистам больше не приходится полагаться исключительно на интуицию, чтобы судить о преобладании грамматических моделей.

1.1 Подход, основанный на использовании

Однако остается потребность в инструментах, позволяющих проводить более сложные формы корпусного анализа. В частности, в настоящее время до сих пор не существует надежного способа автоматической идентификации синтаксических паттернов в неаннотированных корпусах. Например, чтобы определить, сколько употреблений определенного глагола является переходным, а сколько непереходным, лингвистам по-прежнему приходится полагаться на ручную аннотацию. Для многих языков, не имеющих доступа к лингвистическим ресурсам, это не всегда доступный вариант.

Одним из инструментов, который может удовлетворить эту потребность, являются парсеры, алгоритмы, которые анализируют синтаксическую структуру предложений. Среди синтаксических анализаторов те, которые могут обучаться на неаннотированных корпусах, известны как неконтролируемые синтаксические анализаторы. Неконтролируемые синтаксические анализаторы могут быть развернуты на любом языке, для которого необработанный текст доступен в больших количествах.

Они несут огромный потенциал как для нашего понимания языка, так и для нашей способности обрабатывать его. Для лингвистики они могут облегчить разработку синтаксических теорий, предоставляя способ проверки гипотез. Эта обратная связь, которой в настоящее время не хватает, необходима для улучшения нашего понимания лингвистики.

С технологической точки зрения неконтролируемые синтаксические анализаторы имеют множество применений. С увеличением количества оцифрованного текста возникает потребность в инструментах для его обработки. Современные инструменты обработки естественного языка (NLP), такие как поисковые системы и машинные переводчики, действительно используют статистические свойства слов и фраз; однако до сих пор они не смогли воспользоваться преимуществами синтаксической структуры. Синтаксическая модель может значительно повысить эффективность этих существующих инструментов. Результаты машинного перевода могут стать более согласованными; поисковые системы могут распознавать запросы как связные фразы или предложения, а не просто бесструктурную строку слов; алгоритмы извлечения информации могут лучше определять отношения между сущностями в предложениях; и так далее.

Несмотря на значительные улучшения с момента начала их разработки в начале 1990-х годов, неконтролируемые синтаксические анализаторы еще не получили широкого распространения. Одним из основных препятствий на пути их прогресса является их зависимость от дискретных синтаксических моделей. В этих дискретных моделях слова классифицируются по категориям частей речи, а затем либо группируются во вложенные фразы для формирования деревьев структуры фраз, либо помещаются в отношения зависимости для формирования деревьев зависимостей. Все три понятия — части речи, словосочетания и зависимости — дискретны: слово либо принадлежит части речи, либо не принадлежит; либо последовательность слов образует фразу, либо нет; либо слово находится в отношениях зависимости с другим словом, либо нет.

Этот дискретный подход может быть адекватным в описательной лингвистике, где лингвистический анализ предназначен для понимания читателями-людьми. Однако он плохо подходит для синтаксических анализаторов, выходные данные которых предназначены для использования другими приложениями НЛП. Во-первых, чтобы вписать язык в четкие дискретные категории и отношения, в дискретных моделях отбрасывается информация, жизненно важная для точного анализа. Во-вторых, анализ, построенный с помощью дискретных моделей, основан на высокоуровневых и нечетко определенных концепциях. Короче говоря, он берет подробные измерения из текста, а затем упрощает их для создания нечеткого анализа.

И НЛП, и лингвистика могут извлечь большую пользу из надежных парсеров без присмотра. Чтобы достичь этого, нам нужна более точная модель синтаксиса, которая может в полной мере использовать большой объем доступных в настоящее время лингвистических данных. Именно с этой целью я предлагаю градиентную синтаксическую модель.

Основным источником вдохновения для Градиентной синтаксической модели является подход в лингвистике, основанный на употреблении, примером которого является Bybee (2010). Подход, основанный на использовании, рассматривает язык как динамический процесс, а не статическую структуру. Bybee (2010) подробно иллюстрирует, как этот динамический взгляд на язык может объяснить как диахронические изменения в языковых структурах, так и их синхронические вариации.

1.2 Цель и объем

Эта модель языка как динамического процесса естественным образом приводит к понятию градиента в языковой структуре. Как пишет Байби (2010:1): «Язык — это… феномен, демонстрирующий очевидную структуру и регулярность формирования паттернов, но в то же время демонстрирующий значительные вариации на всех уровнях». Создавая иллюзию дискретности, языковые паттерны в действительности градиентны и зависят от контекста. Например, различия в лексико-синтаксическом поведении не категоричны, как предполагают части речи; Bybee показывает, как вспомогательные глаголы в английском языке постепенно расходились с конечными глаголами за счет постепенного увеличения частоты использования модальных глаголов и глаголов be, have и do (120–135). Между тем фразы и морфологически сложные слова различаются по степени единства в зависимости от того, как их частоты как единицы соотносятся с частотами составляющих их морфем (46–50). Таким образом, именно через градиентные различия происходят как синхронические вариации, так и диахронические изменения.

Таким образом, основанный на использовании подход вдохновляет на использование градиентных синтаксических моделей в неконтролируемом синтаксическом анализе. Синтаксические модели градиента предлагают по крайней мере два основных усовершенствования обычных синтаксических моделей. Во-первых, распознавая градиентные, а не категориальные различия между словами и фразами, они обеспечивают большую описательную силу. Дискретные структуры могут быть точно описаны с помощью градиентной модели, но градиентные структуры часто не могут быть описаны дискретными моделями без потери информации. Во-вторых, используя градиент для учета сложности, градиентные модели могут использовать количественные понятия, которые легче определить. Например, в дискретном фразовом анализе фраза либо является составной частью, либо нет. Однако это решение основано на множестве различных критериев, которые не являются необходимыми и достаточными и служат скорее ориентирами. Таким образом, дискретный фразовый анализ оставляет место для неопределенности. Напротив, в градиентной модели фразы (называемые фрагментами в Bybee 2010) имеют гораздо больше возможностей для изменения; в частности, они могут различаться по частоте встречаемости по сравнению с составляющими их словами. Чем выше относительная частота фрагмента, тем сильнее он может быть оценен как единица. Эта градиентная вариация намного больше, чем бинарный выбор между округом и округом, но, в свою очередь, она очень точно определена.

Благодаря использованию точно определенных количественных измерений подход, основанный на использовании, естественным образом подходит для вычислительной синтаксической модели. Таким образом, данная диссертация является исследованием этой возможности.

Градиентная синтаксическая модель — это первая попытка создания синтаксической модели нового типа, предназначенной для обработки естественного языка, а не для чтения человеком. Он направлен на использование только точно определенных понятий, чтобы как можно точнее предсказывать синтаксические модели. Вместе эти две цели проектирования приводят к модели, которая использует небольшое количество простых, строго определенных отношений градиента для захвата большого количества синтаксических шаблонов.

1.3 План диссертации

Версия градиентной синтаксической модели, описанная и реализованная в этой диссертации, предназначена для технико-экономического обоснования и прототипа, а не для окончательной модели. Текущая модель имеет несколько ограничений. Во-первых, это размер учебного корпуса. Чтобы ускорить процесс разработки, учебный корпус (Penn Treebank-3) был намеренно выбран небольшим (933 886 токенов). Это, однако, обязательно влияет на производительность модели. Конечно, доступны гораздо большие корпуса, и как только реализация будет лучше оптимизирована, можно надеяться, что ее можно будет обучить на значительно большем количестве данных.

Кроме того, отсутствие стандартного градиентного анализа затрудняет оценку. Синтаксическая модель градиента предназначена для измерения информации, отличной от обычных дискретных моделей, поэтому их анализ трудно сравнивать. Идеальной оценкой синтаксической модели градиента было бы измерение прироста производительности, который она дает другим приложениям НЛП; однако это выходит за рамки наших текущих возможностей. Тем не менее, в некоторых случаях мы можем оценить качество градиентного анализа, изучив, насколько хорошо он согласуется с дискретным анализом и ожидаемыми результатами. Ближе к концу мы всесторонне оценим градиентную модель, оценив грамматичность предложений с помощью оценки грамматики, а затем оценив, насколько хорошо эта оценка грамматики различает грамматические и неграмматические предложения.

В-третьих, как следует из названия, синтаксическая модель градиента моделирует только синтаксические отношения между словами в предложении. Таким образом, он исключает все другие области языка — фонетику, фонологию, морфологию, семантику и прагматику — хотя некоторая несинтаксическая информация может быть получена косвенно. Поскольку синтаксис до некоторой степени взаимодействует со всеми этими другими аспектами лингвистики, синтаксический анализ, который может обеспечить эта модель, не будет полным.

Наконец, хотя в этой диссертации описывается реализация линейного процесса обучения, обучение Градиентной синтаксической модели изначально задумывалось как итеративный процесс. Описанный здесь процесс обучения представляет собой только первую итерацию обучения. В последующих итерациях модель можно улучшить, включив измерения и анализы, сделанные в первой. К сожалению, из-за нехватки времени этот итеративный процесс обучения придется реализовать в будущем.

Многие другие области синтаксической модели градиента могут быть усовершенствованы; наиболее важные из них будут рассмотрены в Заключении. Однако основная цель этой диссертации — заложить основу для градиентной синтаксической модели. Задача раскрытия полного потенциала модели останется на будущее.

Во второй главе описываются обычные дискретные синтаксические модели и то, как они используются в неконтролируемом синтаксическом анализе. В процессе он также проверит пригодность модели для неконтролируемого синтаксического анализа. Далее в третьей главе описывается градиентная синтаксическая модель, которая делится на три модуля: лексико-синтаксическое сходство, фразы и условные вероятности. Для каждого модуля он описывает используемые показатели и концепции, представляет результаты его реализации и оценивает эти результаты. Наконец, в четвертой главе дается общая оценка всей модели и указываются направления дальнейшего расширения модели в будущем.

2 Текущие модели в неконтролируемом синтаксическом анализе

Большинство неконтролируемых синтаксических анализаторов основаны на дискретных синтаксических моделях, основанных на трех понятиях из лингвистики: части речи, составляющие и зависимости. Части речи классифицируют слова на основе их морфологических, синтаксических и семантических свойств. Составные части и зависимости указывают на синтаксические отношения между словами: составляющие — это последовательности слов (обычно смежные), которые ведут себя как единое целое, а зависимости — это синтаксические отношения между парами слов, одно из которых является головным, а другое — зависимым.

2.1 Части речи

Несмотря на то, что дискретные модели широко используются в неконтролируемом синтаксическом анализе, изначально они разрабатывались для совершенно другой цели. В лингвистике целью этих моделей было обеспечение теоретической основы для описания синтаксиса. Они были разработаны только для лингвистического описания, хотя иногда они включались как часть более всеобъемлющих теорий языка, таких как Генеративная грамматика. К тому времени, когда эти модели были адаптированы к неконтролируемому синтаксическому анализу, они уже использовались лингвистами в течение некоторого времени, от почти столетия в случае составляющих до нескольких тысячелетий в случае частей речи.

Для лингвистического описания дискретные модели имеют свои преимущества: они интуитивно понятны и просты для понимания, и их можно применять к широкому спектру синтаксических моделей в языках с самой разной типологией. Однако как модели в неконтролируемых синтаксических анализаторах они имеют два серьезных недостатка: будучи дискретными, они чрезмерно упрощают неоднородность шаблонов, которые они пытаются описать; и, будучи высокоуровневыми, они сложны и их трудно точно определить. В совокупности эти проблемы не только затрудняют вывод дискретных структур алгоритмами, но и серьезно ограничивают их полезность. Таким образом, перед неконтролируемыми синтаксическими анализаторами ставится задача упростить сложные лингвистические данные сложным, но нечетким образом.

В этой главе мы обсудим три отдельные лингвистические структуры, используемые в настоящее время в неконтролируемых синтаксических анализаторах: части речи, составные части и зависимости. Мы также увидим, как эти структуры используются неконтролируемыми алгоритмами индукции POS и неконтролируемыми синтаксическими анализаторами, используя предыдущую работу для иллюстрации. Мы сравним производительность некоторых из этих предыдущих работ, восходящих к ранним дням НЛП. Наконец, проинформированные об истории проблемы и ее предлагаемых решениях, мы вернемся к вопросу о пригодности дискретных моделей для задачи неконтролируемой грамматической индукции и обсудим дальнейшие действия.

Части речи — это категории слов, которые имеют общие морфологические, синтаксические и семантические свойства. Их использование в лингвистике насчитывает тысячелетия, и в настоящее время они по-прежнему широко используются как в лингвистике, так и в НЛП, в том числе в неконтролируемом синтаксическом анализе. Однако удобство использования дискретных категорий для характеристики лексических свойств достигается за счет сокрытия как различий между словами внутри категорий, так и различий между категориями.

2.2 Синтаксические отношения

В этом разделе мы исследуем природу частей речи и их пригодность для разбора без учителя. Кроме того, мы рассмотрим, как неконтролируемые алгоритмы индукции частей речи определяют части речи. Эти алгоритмы обеспечивают отправную точку для изучения лексических свойств в градиентной синтаксической модели.

2.1.1 В лингвистическом описании

Слова в языке обладают множеством морфологических, синтаксических и семантических свойств, которые в совокупности называются лексическими свойствами или лексическим поведением. Хотя лексические свойства обычно не делятся четко на категории, некоторые из них можно использовать для группировки слов в небольшое количество категорий, которые мы теперь знаем как части речи. Благодаря категоризации (или, в более общем смысле, обобщению), части речи обеспечивают удобный способ описания свойств слова. Это особенно полезно для слов, которые встречаются слишком редко, чтобы о них можно было собрать достаточно информации.

Еще в V веке до нашей эры древний санскритский грамматист Яска разделил санскритские слова на четыре основные части речи: существительные (nāma), глаголы (ākhyāta), глагольные префиксы. (упасарга) и инвариантные частицы (нипата) (Матилал, 1990). Позже, в трактате под названием Искусство грамматики, датированном II веком до нашей эры, греки придумали восемь частей речи: существительные, глаголы, причастия, артикли, местоимения, предлоги, наречия и союзы. . С небольшими изменениями эти категории остались частью речи, используемой сегодня в английском языке. В генеративной грамматике (например, Рэдфорд, 1988) части речи — или «категории на уровне слов» — стали моделироваться в универсальной грамматике как базовые категории, к которым в основном принадлежат все слова во всех языках.

Но хотя всегда можно классифицировать слова по их лексическим свойствам, эти результирующие категории часто довольно трудно определить. Бек (2002) исследует преимущества и недостатки категоризации слов с использованием только морфологических, синтаксических или семантических свойств. Для неподготовленного наблюдателя из всех видов лексических свойств наиболее заметны семантические свойства. Например, существительное обычно описывается как «человек, место или вещь», а глагол — как «слово действия». Но хотя такие описания соответствуют наиболее типичным примерам существительных и глаголов (например, tree для существительных и run для глаголов), многие слова не подходят под эти описания. Многие существительные относятся не к людям, местам или вещам, а к качествам, таким как теплота, или к идеям, таким как демократия. Точно так же многие глаголы описывают события, которые являются не действиями, а состояниями; например, быть, иметь и терпеть. Что еще более важно, схема категоризации, основанная только на семантических свойствах, не зависящих от языка, будет пренебрегать специфическими для языка морфосинтаксическими свойствами, то, для чего в первую очередь были созданы части речи.

Также проблематично определять части речи исключительно по морфосинтаксическим признакам. Здесь мы сталкиваемся с противоположной проблемой: морфосинтаксические свойства специфичны для языка, однако такие части речи, как существительные и глаголы, идентифицируются во многих разных языках. Тот факт, что слова в разных языках могут быть идентифицированы как существительные, предполагает, что они имеют некоторые общие семантические характеристики. Полагаясь исключительно на морфосинтаксические свойства для определения частей речи, мы пренебрегаем их поразительным семантическим сходством.

Тот факт, что сходные части речи были идентифицированы в самых разных языках, отражает сильную тенденцию лексико-морфосинтаксических свойств, специфичных для языка, согласовываться с общеязыковыми лексико-семантическими свойствами. Только семантические свойства являются общими для разных языков, в то время как морфосинтаксические свойства относятся к конкретным языкам. Но именно ассоциация морфосинтаксических свойств с аналогичными семантическими свойствами порождает сходные части речи в разных языках. Теоретически эта общность далеко не неизбежна — мы легко могли представить себе альтернативный сценарий, при котором лексико-морфосинтаксические свойства мало коррелировали с лексико-семантическими. В этом случае все части речи обязательно были бы языково-специфичными.

Таким образом, Бек (2002) обнаружил, что, хотя части речи можно сравнивать на разных языках, ни морфология, ни синтаксис, ни семантика сами по себе недостаточны для адекватного определения каждой части речи на разных языках. Чтобы исправить это, он предлагает определения для существительных, глаголов и прилагательных, которые используют как семантические, так и синтаксические критерии (морфологические критерии были опущены, потому что морфология не имеет значения во всех языках). Существительное, например, определяется как элемент, выражающий семантическое имя — «концептуально-автономное значение, относящееся к индивидуальному, дискретному или абстрактному объекту», — которое может быть зависимым от синтаксиса. без дополнительных мер (76–78). (Синтаксические заголовки и зависимые будут обсуждаться позже в этой главе, при описании зависимостей.)

Такие определения достаточно точны для лингвистического анализа, написанного для читателей. Однако для неконтролируемых алгоритмов индукции части речи (POS) эти определения концептуально слишком высокоуровневы. Алгоритмы — по крайней мере изначально — не могут определить, является ли слово «концептуально автономным», не имея доступа к этому уровню семантики; и, как неконтролируемые алгоритмы, они не имеют информации о том, является ли слово синтаксическим заголовком или зависимым, поскольку для этого требуется доступ к деревьям зависимостей. Точно так же информация высокого уровня потребуется, чтобы определить, может ли элемент быть головным или зависимым без дополнительных мер.

Поэтому для вычислительной модели лексических свойств необходим другой подход. Поскольку вычислительные семантические модели высокого уровня еще не доступны, тем временем вычислительная лексическая модель должна исключать семантические свойства и фокусироваться на морфосинтаксических свойствах. Кроме того, поскольку вычислительные модели способны хранить огромное количество точно определенных количественных отношений, им не нужно полагаться на дискретные категории для упрощения большого разнообразия лексических свойств в языке, как это делают люди.

Проблеск возможной альтернативы можно увидеть в Bybee (2010). Вместо того, чтобы рассматривать части речи как отдельные категории и пытаться установить для них критерии, Байби (2010) принимает более эмерджентный взгляд на части речи. Для нее слова принципиально разнородны, но имеют общие черты, которые предполагают структуры семейного сходства (Wittgenstein 1953). Некоторые слова можно считать более типичными для паттерна, тогда как другие — более маргинальными, в зависимости от относительной частоты, с которой они проявляют свойства, общие с другими словами в той же части речи. Однако ни одно из этих свойств не является необходимым или достаточным для членства. Части речи рассматриваются не как фундаментальные статические категории, а скорее как эмерджентные категории, которые постоянно находятся в движении.

Как мы увидим, такой взгляд на части речи больше соответствует стратегиям, используемым в неконтролируемых алгоритмах индукции POS, которые выводят части речи из неаннотированных корпусов.

2.1.2 В неконтролируемых алгоритмах индукции POS

Хотя лингвистические определения частей речи концептуально слишком высокоуровневы, чтобы их можно было использовать в алгоритмах, компьютерные лингвисты нашли другие способы вывода о частях речи, используя информацию, к которой у алгоритмов есть свободный доступ. Большинство неконтролируемых алгоритмов POS-индукции используют одну из трех основных стратегий. Первую стратегию можно описать как поиск оптимальной классификации. Алгоритм начинается с некоторой начальной категоризации, простейшей из которых является размещение каждого слова в своем собственном классе слов. Затем слово перемещается в другую категорию, если это приводит к улучшению; улучшение обычно определяется как увеличение вероятности обучающего текста. Вероятность каждого слова в тексте, предполагая биграммную модель, можно рассчитать по формуле

где wᵢ — это слово в позиции i в предложении, а cᵢ — класс слов wᵢ (коричневый и др., 1992). Двумя известными алгоритмами, использующими эту общую стратегию, являются Brown et al. (1992) и Clark (2003), первый из которых является самым ранним алгоритмом POS-индукции, отмеченным в литературе. Оба алгоритма стремятся найти категоризацию, которая максимизирует вероятность обучающего корпуса. Оба алгоритма предполагают некоторое фиксированное количество классов слов.

Примером второй стратегии, которую я буду называть контекстно-векторная кластеризация, являются Финч и Чейтер (1992) и Шютце (1995). В Schütze (1995) 250 наиболее часто встречающихся слов в обучающих данных используются в качестве контекстных слов. Затем алгоритм записывает, сколько раз каждое из этих контекстных слов встречается непосредственно слева или справа от каждого из оставшихся слов в корпусе, так что каждое из этих слов имеет левый и правый вектор контекста. Эти левый и правый контекстные векторы затем объединяются в 500-мерные векторы, которые затем сокращаются до 50-мерных векторов с использованием SVD (Singular Value Decomposition, метод уменьшения размерности). Эти 50-мерные векторы наконец сгруппированы в 200 классов слов. Точно так же для классификации слов с высокой и средней частотой Биманн (2006) использует 200 наиболее часто встречающихся слов в обучающем корпусе как слова контекста и характеризует каждое слово количеством раз, когда эти слова контекста встречаются непосредственно слева и справа от слова. Это. Однако его алгоритм кластеризует слова несколько иначе, помещая каждое слово в класс, члены которого имеют наибольшую общую оценку сходства с ним. Таким образом, нет необходимости предварительно определять количество кластеров.

Третья стратегия использует скрытые марковские модели, или HMM (см. введение в Blunsom 2004). Одним из первых неконтролируемых синтаксических анализаторов, использующих HMM, является Merialdo (1994), который реализует триграмму HMM. Триграмма HMM делает два приближения: вероятность каждого тега части речи зависит только от тегов двух предыдущих слов и что вероятность каждого слова зависит только от его тега POS. Затем алгоритм выбирает теги POS, которые максимизируют вероятность обучающего корпуса. Более поздние попытки, как правило, сочетают HMM с более сложными методами машинного обучения и могут быть описаны как дополненные HMM; к ним относятся Goldwater and Griffiths (2007), Johnson (2007), Graca et al. (2009) и Berg-Kirkpatrick et al. (2010).

Какая стратегия наиболее перспективна и насколько она эффективна? Христодулопулос и др. (2010) дают тщательную оценку репрезентативных исследований за предыдущие два десятилетия, выполняя эталонные тесты семи неконтролируемых алгоритмов POS-индукции: Brown et al. (1992), Кларк (2003), Биманн (2006), Голдуотер и Гриффитс (2007), Джонсон (2007), Грака и др. (2009) и Berg-Kirkpatrick et al. (2010). В то время как каждая статья дает оценку своей собственной системы, Christodoulopoulos et al. (2010) подвергает все системы одинаковым тестам. Более того, в дополнение к тестированию систем на корпусе WSJ, на основе которого было разработано большинство систем, оценка также проверяет их на переводах многоязычного корпуса Multext-East на восемь различных европейских языков. После взвешивания различных методов измерения того, насколько хорошо индуцированные кластеры соответствуют меткам золотого стандарта, авторы пришли к выводу, что метрика, основанная на энтропии, V-мера, является наиболее надежной (Rosenberg and Hirschberg 2007).

Согласно эталонным тестам, алгоритм, который лучше всего работает с корпусами восьми различных европейских языков, был Clark (2003) с Brown et al. (1992) и Berg-Kirkpatrick et al. (2010) сразу за ним. В исследовании также представлен новый метод оценки. Из каждого кластера, индуцированного каждой системой, эвристически выбирались слова в качестве прототипов. Затем эти прототипы были загружены в другую систему индукции POS, Haghighi and Klein (2006), которая использует эти прототипы для создания новых кластеров. Частично это было мотивировано возможностью того, что этот метод индукции может давать лучшие кластеры, чем каждый из алгоритмов сам по себе. Здесь Браун и др. (1992) стал победителем.

Можно сделать два замечания по поводу этих результатов тестов. Во-первых, как отмечают авторы, более старые алгоритмы превосходят многие более современные. Браун и др. (1992) и Кларк (2003), обе из которых используют первую стратегию, поиск оптимальной классификации, являются двумя старейшими системами в оценке, но в целом они являются одними из лучших по эффективности, уступая только самой новой рассмотренной системе, Берг-Киркпатрик и др. др. (2010). Во-вторых, даже системы-победители довольно ограничены в своей производительности. Христодулопулос и др. (2010) включает оценку всех семи систем на WSJ, который представляет собой корпус, на основе которого было разработано большинство систем и, следовательно, должен дать наилучшие результаты. Тем не менее, ни один из них не превышает 70% по V-мере, что значительно лучше, чем базовый уровень группировки каждого слова в отдельный кластер (35,42%), но все еще далеко от 95,98%, достигнутых контролируемой системой Stanford Tagger.

Более поздние неконтролируемые POS-теггеры, расширенные HMM, как правило, концентрируются на совершенствовании статистических методов. Возрастающая сложность этих методов отражается во времени работы систем, о которых сообщается в Christodoulopoulos et al. (2010). В то время как более ранние системы без HMM завершают работу в течение часа, расширенные системы HMM занимают от примерно 4 часов в случае Goldwater and Griffiths (2007) до примерно 40 часов в случае Berg-Kirkpatrick et al. (2010). Кроме того, результаты тестов показывают, что это увеличение сложности не сопровождается соответствующим увеличением производительности.

Уменьшающаяся отдача от неконтролируемой POS-маркировки требует некоторого размышления. Части речи были частично сформированы факторами, к которым у алгоритмов нет доступа. Эти соображения включают семантические свойства слов, когнитивные предубеждения лингвистов, которые выбирают, какие критерии важны, и исторические случайности, повлиявшие на то, как слова были классифицированы. Между тем алгоритмы POS-индукции имеют доступ только к текстовому корпусу. Следовательно, может существовать теоретический предел того, насколько близко результаты этих алгоритмов могут соответствовать традиционным классификациям частей речи.

Также важно помнить, для чего парсеры используют части речи. Парсеры используют их, чтобы помочь изучить синтаксическое поведение низкочастотных элементов и сосредоточить свое внимание на синтаксических отношениях между словами, а не на семантических. Решением, которое лучше всего служит этим целям, могут быть не части речи, которые лингвисты завещали НЛП; на самом деле, он может вообще не включать категории. В то время как категоризация имеет преимущество упрощения разнообразия лексического поведения, синтаксические анализаторы, в отличие от лингвистов-людей, больше выигрывают от точности, чем от простоты. Поскольку каждое слово в какой-то степени уникально, наложение однородных категорий на разнородные слова неизбежно затемняет их уникальные свойства, тем самым ставя под угрозу точность.

Доказательства преимуществ градиентных моделей исходят от Schütze and Walsh (2008), которые создали градиентную модель лексико-синтаксического поведения, используя левый и правый контекстные векторы каждого слова (называемые полусловами), аналогичные Шютце (1995). Сначала они представляют предложения в своих обучающих данных как последовательности этих полуслов. Затем они используют свои представления предложений для оценки грамматичности невидимых тестовых предложений, определяя, все ли подпоследовательности определенной длины в предложении адекватно похожи (определяемые некоторым порогом) на любые последовательности, хранящиеся при обучении.

В своей оценке они применяют свою градуированную модель к 100 грамматическим предложениям (взятым из корпуса CHILDES, корпуса разговоров с детьми) и 100 неграмматическим предложениям (случайно сгенерированным с использованием словаря CHILDES). Для сравнения они также строят категориальную модель на основе Redington et al. (1998), в котором слова представлены их местом в иерархическом кластере, построенном на основе контекстуальной информации, подобной полусловам Шютце. Шютце и Уолш (2008) обнаружили, что их градуированная модель значительно превосходит категориальную. Эти результаты подтверждают возможность того, что градуированные представления лексико-синтаксического поведения могут быть более информативными, чем категориальные, и, в частности, могут привести к лучшим результатам при синтаксическом анализе.

2.1.3 При неконтролируемом синтаксическом анализе

Несмотря на то, что у неконтролируемого синтаксического анализа иные цели, чем у описательной лингвистики, он также сильно зависит от частей речи. Части речи предоставляют важную информацию о поведении низкочастотных слов при обучении. Чтобы узнать, как слова ведут себя синтаксически, синтаксические анализаторы должны наблюдать за их повторяющимися экземплярами — чем больше экземпляров, тем лучше, поскольку каждый экземпляр раскрывает дополнительную информацию о поведении слова. Части речи обобщают свойства высокочастотных слов на низкочастотные слова с аналогичными свойствами, особенно лексико-синтаксическими свойствами.

Более того, лексико-синтаксическая информация, предоставляемая частями речи, позволяет синтаксическим анализаторам выводить синтаксические отношения между словами. Частое совпадение двух слов в одном предложении связано не с наличием синтаксической связи между словами, а скорее с семантическим сходством. слов, а не самих слов, парсеры без присмотра могут легче вывести синтаксические отношения и избежать семантических. На самом деле неконтролируемые синтаксические анализаторы часто используют только теги частей речи слов в своих обучающих корпусах, исключая сами слова. Как Спитковский и др. (2011) отмечает, что «каждый новый современный индуктор грамматики зависимостей со времен Кляйн и Мэннинг (2004) полагался на золотые теги частей речи».

Одним из недостатков использования тегов части речи является то, что для их создания, как правило, по-прежнему требуются определенные усилия человека. Теги частей речи в корпусах обычно аннотируются людьми. В качестве альтернативы, теги могут быть сгенерированы контролируемыми алгоритмами тегирования и впоследствии очищены человеческим трудом. Однако сами эти алгоритмы, находящиеся под наблюдением, в конечном итоге все равно должны обучаться на корпусах, аннотированных людьми. Эта зависимость от человеческого труда не позволяет неконтролируемым синтаксическим анализаторам быть полностью свободными от помощи человека.

Кляйн и Мэннинг (2005) решают эту проблему, выполняя свою собственную неконтролируемую индукцию части речи перед обучением своего неконтролируемого синтаксического анализатора (CCM, который будет представлен позже в этой главе). Используя стратегию кластеризации контекст-вектор, аналогичную Finch and Chater (1992), они объединяют словарный запас в учебном корпусе в 200 классов слов, а затем используют метки для этих классов для представления слов в обучении. Результатом является заметно более низкий балл F1 (63,2%), чем результат, достигнутый с аннотированными людьми POS-тегами (71,1%), но все же выше базового балла F1 для правого ветвления, равного 60,0%.²

Позднее Спитковский и соавт. (2011a) показывают, что индуцирование частей речи с помощью неконтролируемой системы не обязательно должно приводить к ухудшению производительности. В качестве отправной точки авторы берут собственную улучшенную версию (Спитковский и др., 2011b) анализатора зависимостей, модель зависимостей с валентностью (DMV) (Кляйн и Мэннинг, 2004, которая будет описана более подробно в ближайшее время). Затем они заменяют теги POS золотого стандарта в обучающих данных метками кластеров слов, индуцированных неконтролируемым алгоритмом индукции POS (Clark 2000). Результатом этой замены является лишь очень небольшое падение точности. В качестве дополнительного эксперимента они позволяют словам принадлежать более чем к одной части речи, причем часть речи частично обусловлена контекстом. Каждое слово имеет 10%-ную вероятность того, что его метка кластера слов будет заменена меткой, случайно выбранной из меток левого контекста следующего слова. Еще с вероятностью 10% он получает тег, выбранный из тегов правого контекста предыдущего слова. Даже при таком грубом приближении к контексту точность возрастает, даже немного превосходя исходную производительность системы с тегами золотого стандарта (59,1% против 58,4%).

¹ На самом деле это принцип, лежащий в основе латентно-семантического анализа: степень семантического сходства между двумя словами определяется тем, с какими словами они встречаются в одном и том же документе (который часто принимается за предложение) и с какой частотой (Deerwester et al. др. 1990).

² F1 — среднее гармоническое точности и полноты, или

Лингвисты используют различные формализмы для представления синтаксического анализа, наиболее распространенными из которых являются составляющие и зависимости. Как и части речи, составляющие и зависимости являются дискретными понятиями. Точнее, это бинарные отношения: два слова либо находятся в одном и том же составе, либо нет, и либо находятся в зависимом отношении друг к другу, либо нет. Простота этих двух формализмов сделала их популярными в качестве синтаксических моделей для неконтролируемых синтаксических анализаторов.

2.3 Переосмысление дискретных синтаксических моделей

Однако, как и в случае с частями речи, трудно точно определить, что такое составляющие и зависимости, и, следовательно, их нелегко идентифицировать. Критерии, используемые для их выявления, не являются ни необходимыми, ни достаточными, а иногда приводят к разногласиям по поводу правильного анализа. Это означает, что явления, представленные составляющими и зависимостями, на самом деле не дискретны, а градиентны.

2.2.1 Компоненты в лингвистических описаниях

Интуитивно составляющая — это последовательность слов, обычно (хотя и не всегда) непрерывная, которая ведет себя как единое целое. Рэдфорд (1988: 90), работая в рамках трансформационной грамматики (часть более широкой теории генеративной грамматики), предлагает восемь диагностик для избирательного округа, которые проверяют, ведет ли себя последовательность слов как независимая единица: замена, движение, предложение -фрагмент, наречная интерпозиция, координация, общая координация составляющих, местоименная замена и многоточие. Все эти преобразования призваны проверить степень самостоятельности и единства кандидата-учредителя.

Каждая диагностика создает преобразованную версию исходного высказывания, которая затем оценивается на предмет грамматичности; если это грамматическое, то фраза, проверяемая на избирательный округ, проходит эту диагностику. Например, диагностика фрагмента предложения проверяет, может ли кандидат стоять отдельно как фрагмент предложения. В его примере предложения пьяные выйдут из автобуса, чтобы проверить, является ли фраза выйти из автобуса составной частью, мы пытаемся использовать фразу как фрагмент предложения. Поскольку сойти с автобуса само по себе является допустимым предложением, фраза проходит диагностику фрагмента предложения.

На практике, однако, определение составляющих иногда не так просто по двум причинам. Во-первых, разные тесты избирательных округов часто могут не совпадать друг с другом. Например, Bybee (2010:141) описывает пример из Seppänen et al. (1994), который проверяет, является ли несмотря на сложным предлогом или же несмотря на является его составной частью.Чтобы сделать это, они используют четыре диагностических теста. Несмотря на то, что несмотря на не проходит один из четырех тестов, Seppänen et al. (1994) определили, что этого достаточно, чтобы сделать его составной частью. Это решение, однако, основано на довольно произвольном решении о допустимом количестве неудачных диагностик.

Во-вторых, предложения могут различаться по грамматике в зависимости от степени, что означает, что результаты каждой диагностики не являются бинарными. Например, Bybee (2010:141–143) описывает «выдуманные предложения», используемые Seppänen et al. (1994) звучит «литературно и высокопарно». Затем она ищет примеры из реальной жизни в Корпусе современного американского английского (COCA) и обнаруживает, что для всех трех диагностик, которые фраза несмотря на должна пройти, на самом деле есть больше примеров в COCA, где несмотря на ведет себя как неделимая единица, чем примеры, где несмотря на ведет себя независимо. Это показывает, что даже при таких диагностических тестах результаты скорее градиентные, чем бинарные.

Все это показывает, что составные части не являются дискретными единицами, которыми их долгое время считали. Напротив, подход, основанный на употреблении, представляет собой альтернативу, в которой последовательности слов могут вести себя как единицы в разной степени. Их поведение можно наблюдать, сравнивая, как часто последовательность появляется как единое целое, с тем, как часто ее составные слова появляются по отдельности.

2.2.2 Зависимости в лингвистических описаниях

Синтаксическая зависимость – это направленная синтаксическая связь между парой слов в предложении. Один из пары известен как head, а другой известен как зависимый или аргумент. Интуитивно голова — это слово, определяющее синтаксическое поведение зависимого и большую часть синтаксического поведения пары в целом. Синтаксис зависимости имеет многовековую традицию среди европейских лингвистов, но в 1930-х годах его популярность в Северной Америке пошла на убыль, уступив место порождающей грамматике и ее использованию составляющих (Мелькук 1988: 3). Мельчук объясняет это отчасти исторической случайностью английского языка с его жестким порядком слов, который является языком, на котором говорят североамериканские лингвисты (4–5).

Хотя в отношениях зависимости присутствует постоянный элемент предсказуемости, определение зависимостей и их голов не всегда является простым делом. Мельчук (1988: 129) излагает ряд критериев для этой цели, основные моменты которых резюмируются ниже (см. Мельчук 1988: 129–140 для примеров и подробностей):

Как и в случае избирательности, понятие синтаксической зависимости в значительной степени является интуитивным, но абстрактным идеалом, который должен принять форму более конкретных критериев применительно к реальному языку. Мельчук (1988) пытается сделать свои критерии как можно более широко применимыми, с характерной строгостью и вниманием к деталям; однако он признает, что «не может предложить строгого определения синтаксической зависимости», называя это понятие «чрезвычайно важным и в то же время не вполне ясным» (129). Далее он признает, что существуют синтаксические явления, для которых его критерии не могут дать четкого ответа; например, в соединениях существительное-существительное в изолирующих языках ни морфология, ни синтаксис не указывают на четкий выбор синтаксического заголовка (138). В таких случаях лингвистам остается выводить новые критерии, основанные на абстрактном принципе, согласно которому голова определяет поведение зависимого или пары вместе. Кроме того, поскольку в каждом случае может быть удовлетворено разное количество критериев и в разной степени, представление зависимостей в виде бинарного отношения представляется чрезмерным упрощением.

Слова, образующие просодическую единицу («примерно» эквивалентную составляющей), связаны между собой. В качестве альтернативы слово и начало просодической единицы связаны, если это слово и эта просодическая единица вместе могут образовать более крупную просодическую единицу.
В паре связанных слов слово, определяющее большую часть синтаксического распределения пары в целом, является головным.
В паре связанных слов слово, определяющее большую часть морфологических взаимодействий пары с другими элементами, является головным.
требует наличия (или подкатегории для),

Бек (2002:77) также предлагает критерии для определения синтаксических зависимостей, а также голов и зависимых. Его критерии можно свести к одной формулировке:

Главы и иждивенцы в отношениях зависимости —

Элемент является заголовком другого элемента, если он

Например, в предложении Я сильно ударился, ударил, будучи конечным повествовательным глаголом, разделяет на подкатегории как подлежащее Я, так и прямое дополнение. это; оба аргумента должны присутствовать, чтобы фраза, содержащая hit, была завершена. Таким образом, hit становится главой как I, так и it. Между тем, наречие жесткий, модифицирующее hit, лицензируется hit, поскольку без него оно не могло бы возникнуть. Наконец, линейные позиции слов I, it и hard определяются словом и по отношению к нему. попал. Таким образом, жесткий является началом трех других слов: я, это и жесткий.

разрешает наличие (или лицензий) или
определяет линейное положение зависимого.
каждая пара учитывается только один раз в S,
т.е. если (x,y ) ∈ Sтогда (y,x) ∉ S;

Как и у Мельчука (1988), критерии Бека (2002) показывают, что понятие синтаксической зависимости основано на едином интуитивном принципе, но на практике должно интерпретироваться как ряд различных критериев, некоторые из которых могут противоречить друг с другом. Например, в именной фразе дерево дерево обычно обозначается как голова, а the — как зависимое. Согласно критериям Бека (2002), дерево (как существительное в единственном числе) требует присутствия the и определяет его линейное положение. Однако с таким же успехом можно было бы сказать, что the определяет линейное положение tree и что the требует присутствия tree . Таким образом, выбор дерева в качестве головы мотивирован другими критериями. И, как и в Mel’cuk (1988), критерии Beck (2002) по-прежнему не могут идентифицировать голову в синтаксических паттернах, таких как соединения существительное-существительное без морфологической флексии.

Что еще более важно для неконтролируемого синтаксического анализа, концепция синтаксической зависимости, описанная либо в Mel’cuk (1988), либо в Beck (2002), слишком абстрактна для вычислительной модели синтаксиса. Понятия, используемые в их критериях — определение линейного положения, просодической единицы, синтаксического распределения, морфологического взаимодействия, подкатегоризации и лицензирования — не могут использоваться синтаксическим анализатором в качестве отправной точки для изучения синтаксиса языка, поскольку сами являются частью синтаксиса языка. Неконтролируемый синтаксический анализатор вначале не имеет другого выбора, кроме как начать с наблюдений, основанных на низкоуровневых, строго определенных концепциях.

2.2.3 Компоненты и зависимости при неконтролируемом синтаксическом анализе

Среди неконтролируемых синтаксических анализаторов, которые были разработаны до сих пор, как использующие составляющие, так и использующие зависимости, большинство использовало так называемую генеративную модель. Как следует из названия, модель предполагает, что наблюдаемые данные генерируются скрытым механизмом. Таким образом, задача алгоритма обучения состоит в том, чтобы сделать вывод о конкретных свойствах скрытой структуры. Часто предполагается, что скрытая структура максимизирует вероятность наблюдаемых данных.

В этом разделе будет представлена генеративная модель и кратко описано, как она применяется к неконтролируемому синтаксическому анализу. Затем я опишу дизайн и производительность трех известных неконтролируемых синтаксических анализаторов: модели избирательного контекста (CCM, Klein and Manning 2002), U-DOP (Bod, 2009) и модели зависимости с валентностью (DMV, Klein 2004). Все три используют генеративные модели; хотя U-DOP использует другой алгоритм обучения, его базовая модель по-прежнему узнаваемо генеративна. Наконец, я кратко расскажу о более поздних расширениях DMV в Spitkovsky et al. (2011a, 2011b, 2012, 2013), которые сообщают о лучших сопоставимых показателях на сегодняшний день.

Генеративная модель

Генеративная модель состоит из трех переменных частей: 1) наблюдаемые данные, 2) скрытые переменные и 3) параметры. Предполагается, что наблюдаемые данные генерируются каким-то скрытым механизмом, который может определяться скрытыми переменными. Работа этого скрытого механизма определяется параметрами.

Один простой пример, иллюстрирующий эту модель, включает подбрасывание монеты (Do and Batzoglou 2008). Монета выбирается случайным образом из двух монет, A и B. Каждая монета имеет разную и неизвестную вероятность выпадения орла, например. PA(голова) = 0,3 и PB(голова) = 0,5. Рассмотрим эти результаты серии из десяти подбрасываний монеты, которые все генерируются либо монетой A, либо монетой B:

Подбрасывание монеты, создающее эти результаты, является скрытым механизмом; он содержит одну скрытую переменную — используемую монету. Параметрами являются Pᴀ(голова) и Pʙ(голова), вероятности того, что каждая монета выпадет орлом. Значения Pᴀ(голова) и Pʙ(голова), которые делают наблюдаемую последовательность результатов подбрасывания монеты наиболее вероятной, являются оценками максимального правдоподобия два параметра.

Большая часть работы в области машинного обучения посвящена решению проблемы вывода скрытых переменных и параметров в генеративной модели с учетом наблюдаемых данных. Одним из распространенных решений этой проблемы является использование алгоритма максимизации ожидания (или EM), итеративного метода, который ищет значения скрытых переменных и параметров, которые максимизируют вероятность наблюдаемых данных. Do и Batzoglou (2008) приводят краткий пример алгоритма EM, примененного к описанному выше примеру с двумя монетами. Их иллюстрация этого примера воспроизведена на рис. 2.1:

Наблюдаемые данные состоят из пяти экспериментов, в каждом из которых используется одна из двух монет (A и B) для получения серии из десяти результатов подбрасывания монеты. Алгоритм состоит из двух шагов: шаг E (ожидание) и шаг M (максимизация). Сначала инициализируются параметры; Pᴀ(head) (или θᴀ) инициализируется до 0,6, а Pʙ(head) (или θʙ) установлен на 0,5. Затем, на этапе E, алгоритм использует эти значения параметров для вычисления ожидаемых значений скрытой переменной — используемой монеты. Для этого сначала вычисляется вероятность того, что каждая монета будет использована для каждого эксперимента; например, в первом эксперименте вероятность составляет 0,449 для монеты А и 0,551 для монеты Б. Затем вычисляется ожидаемый вклад каждой монеты в эксперименте путем умножения вероятности каждой монеты на результаты, так что вклад монеты А в Эксперимент 1, который имеет 5 орлов и 5 решек, будет 2,246 орла и 2,246 решек. Наконец, на М-шаге значения параметров, которые максимизируют ожидаемые значения скрытой переменной, рассчитываются как доля вклада орла для каждой монеты. С вновь обновленными значениями параметров алгоритм повторяется до сходимости. Решение не обязательно является глобально оптимальным, но является локальным оптимумом при заданных начальных значениях параметров. Поиск глобального оптимума может потребовать нескольких попыток с разными начальными значениями.

Генеративные модели широко используются в машинном обучении в целом и в обработке естественного языка в частности. Из трех стратегий POS-индукции, описанных в предыдущем разделе, генеративные модели фактически составляют основу двух из них. Алгоритмы, использующие стратегии поиска с оптимальной классификацией и HMM, рассматривают классы слов, которые должны быть выведены, как скрытую базовую структуру, которая генерирует наблюдаемые слова, подобно тому, как одна из двух монет в приведенном выше примере генерирует результаты орел или решка.

Когда генеративная модель применяется к неконтролируемому синтаксическому анализу, наблюдаемые данные представляют собой обучающий текст, где каждое слово является вероятностным событием. Скрытые переменные — это синтаксическая структура, а параметры — вероятности того, что будет сгенерировано конкретное слово или фраза. Эти параметры могут быть условными вероятностями; например, в модели зависимостей параметр может указывать вероятность появления слова при условии, что определенное слово является заголовком, что порождающая его зависимость направлена влево (или вправо) и что оно непосредственно примыкает к голова (или нет). (Это, по сути, параметры, используемые в DMV в Klein 2004, которые будут обсуждаться в ближайшее время). Таким образом, обучение сводится к поиску скрытых структур и значений параметров, которые максимизируют вероятность наблюдаемого текста.

Теперь мы можем рассмотреть несколько прошлых моделей синтаксического анализа в качестве примеров. Первая система — модель избирательного контекста (Klein and Manning 2002), которая использует алгоритм EM для вывода структуры в генеративной модели.

Контекстная модель группы (CCM)

Будучи моделью округов, CCM представляет синтаксическую структуру предложений в виде бинарных деревьев округов. Он использует две группы параметров: 1) условные вероятности последовательностей слов при заданной части (или интервале) предложения и 2) условные вероятности контекстов этих последовательностей при заданном интервале.

На рис. 2.2 показано дерево избирательных округов для примерного предложения, взятого из работы Кляйн и Мэннинг (2002:129). В таблице 2.1, также из Кляйн и Мэннинг (2002:129), перечислены все составные промежутки в предложении вместе с их метками, содержанием (которое авторы называют выходами) и контекстами. Границы предложений отмечены знаком ◊. Обратите внимание, что Кляйн и Мэннинг (2002), как и большинство неконтролируемых синтаксических анализаторов, используют теги POS вместо реальных слов:

Первая группа параметров, P(доходность|диапазон), определяет вероятности различных последовательностей с учетом диапазона в предложении (например, диапазона заводских платежных ведомостей). будет ‹0,2›). Промежутки дополнительно характеризуются тем, являются ли они составляющими или нет («диституенты»). Например, диапазон ‹0,2›, заводские платежные ведомости, является составной частью в соответствии с деревом синтаксического анализа на рис. 2.2. Таким образом, параметром будет условная вероятность P(ɴɴ ɴɴꜱ|‹0,2›=составляющая). В таблице 2.1 перечислены все интервалы, составляющие дерево; все остальные промежутки являются диститутами. Другая группа параметров, P(context|span), определяет вероятности контекстов этих последовательностей, где контекст — это тег, непосредственно предшествующий последовательности, плюс один сразу после последовательности. Например, контекст ɴɴ ɴɴꜱ в ‹0,2› будет ◊―v. Таким образом, ассоциированный параметр будет P(◊―v|‹0,2›=составляющая).

Предполагается, что для генерации предложений модель сначала выбрала дерево (которое авторы называют брекетированием), а затем сгенерировала слова (фактически POS-теги) на основе составляющих его диапазонов. Затем, чтобы вычислить вероятность предложения, модель суммирует вероятность предложения по всем возможным деревьям; эти деревья ограничены непересекающимися бинарными деревьями, и все они имеют равную вероятность. Алгоритм обучения, алгоритм максимизации ожиданий (EM), затем вычисляет, какие деревья, как ожидается, будут иметь заданные параметры, а также значения параметров, которые максимизируют общую вероятность предложений в обучающем корпусе. На этапе тестирования, когда синтаксический анализатор сталкивается с предложениями, не замеченными при обучении, эти оптимизированные значения параметров затем можно использовать для поиска деревьев для этих невидимых предложений.

Мы можем видеть, что в CCM, чем чаще определенная последовательность встречается в обучающем корпусе, тем больше вероятность того, что она будет найдена в пределах определенного интервала, независимо от того, является ли она составляющей или нет. На самом деле это можно показать математически. Поскольку все бинарные деревья имеют фиксированные равные вероятности и определяются до того, как известно предложение, свойства интервала (его начальный и конечный индексы, а также состав) не зависят от содержимого интервала — другими словами, P( последовательность|диапазон). То, что отличает составные части от distituents, таким образом, является частотой их подпоследовательностей. В бинарном дереве составная часть также должна содержать внутри себя вложенные составляющие, смежные подпоследовательности, которые также часто встречаются относительно других последовательностей той же длины. Кроме того, эти высокочастотные подпоследовательности должны вписываться в двоичное дерево. С другой стороны, у дистрибутивов таких ограничений нет. Таким образом, согласно CCM, хорошими кандидатами на выборную группу являются те, которые, помимо того, что сами являются высокочастотными, также содержат высокочастотные вложенные, непрерывные подпоследовательности.

Кляйн и Мэннинг (2002) оценивают CCM на небольшом обучающем наборе, состоящем из 7422 предложений из WSJ-10, подмножества предложений в корпусе Penn Treebank Wall Street Journal, длина которых не превышает 10 слов (после удаления пунктуации). Как видно из таблицы 2.2, CCM работает значительно лучше, чем гипотетическая базовая линия, где все синтаксические анализы являются чисто правыми (где каждое поддерево состоит из одного слова на левой ветви и остальной части предложения на правой). Он достигает оценки F1 71,1% по сравнению с 60,0% для исходного уровня с правым разветвлением. Теоретическая верхняя граница на самом деле составляет 87,7%, поскольку CCM ограничен бинарным ветвлением, в отличие от деревьев синтаксического анализа в Penn Treebank (Klein and Manning 2005).

Кляйн и Мэннинг (2002) также тестируют CCM на отдельной секции Penn Treebank, секции ATIS (после обучения на WSJ-10). Эта оценка лучше отражает производительность алгоритма, поскольку тестовый набор отделен от обучающих данных. Здесь он достигает значительно более низкого балла F1 (51,2%), хотя все еще выше, чем базовый уровень правой ветви для этой задачи (42,9%).

Кляйн и Мэннинг (2004) также оценивают CCM по немецкому корпусу (2175 предложений) и китайскому корпусу (2437 предложений), каждый из которых также состоит только из предложений, содержащих не более 10 слов. Его производительность на этих языках хуже (оценки F1 61,6% и 45,0% для немецкого и китайского соответственно), но все же лучше, чем их соответствующие базовые показатели для правого ветвления.

Неконтролируемый анализ данных (U-DOP)

U-DOP - еще одна модель избирательного округа. Как и CCM, U-DOP генерирует все возможные непересекающиеся бинарные деревья в качестве кандидатов для каждого предложения в наблюдаемом тексте. Затем U-DOP сохраняет эти деревья в своей памяти вместе со всеми поддеревьями, из которых они состоят. В отличие от CCM, лексические терминалы в U-DOP рассматриваются как часть дерева, так что деревья в памяти могут быть частично или полностью лексикализированы. U-DOP — это генеративная модель, в которой скрытыми переменными являются деревья, а параметрами — вероятности деревьев в памяти.

На рис. 2.3, взятом из публикации Bod (2009:762), показаны деревья и поддеревья, сгенерированные для двух предложений: наблюдать за собакой и собака лает. Нетерминалы в деревьях отмечены X, так как они неизвестны. Обратите внимание, что собака, встречающаяся в обоих предложениях, представлена дважды как независимое дерево. Во время тестирования при обнаружении невидимого предложения U-DOP обращается к деревьям в своей памяти, чтобы вывести для него возможные деревья. Вероятность производного дерева — это произведение вероятностей всех составляющих его поддеревьев. Лучшее дерево - это дерево с кратчайшим выводом (то есть может быть составлено из наименьшего количества поддеревьев); при наличии ничьих выбирается дерево с наибольшей вероятностью.

По своей сути стратегия U-DOP аналогична стратегии CCM в том смысле, что высокочастотные последовательности, содержащие высокочастотные непрерывные подпоследовательности, являются лучшими кандидатами на роль составляющих в обеих моделях. Что касается их различий, U-DOP имеет то преимущество, что может изучать несмежные контексты, поскольку он хранит целые деревья, а не просто составные части линейных последовательностей (Bod 2009: 765). Например, U-DOP может хранить в дереве больше X, чем X, где X отмечает слоты для других поддеревьев (Bod 2009:764). Напротив, CCM вычисляет только вероятности полных последовательностей и не может абстрагировать их части таким же образом. Кроме того, U-DOP представляет контексты более непосредственно по сравнению с CCM, поскольку он хранит их в древовидных структурах, а не в виде отдельных событий (Bod 2009: 765).

Бод (2009) оценивает U-DOP на тех же корпусах, что и CCM, для простоты сравнения. Таблица 2.2 показывает, что он с комфортом превосходит CCM на английском языке (82,7% F1 против 71,9%), а также комбинацию DMV и CCM (77,6%). Его результаты для немецкого (66,5%) и китайского (47,8%) также превосходят результаты CCM. Чтобы проверить, насколько производительность U-DOP на английском языке по сравнению с другими языками связана с большими обучающими данными, Бод (2009: 767) обучает его на учебном корпусе, размер которого больше похож на немецкий и китайский корпуса, с 2200 случайно выбранные фразы. Это приводит к тому, что оценка F1 составляет 68,2% — значительное падение, показывающее, что объем тренировочных данных оказывает значительное влияние на производительность. Кроме того, Бод (2009:767–8) измеряет преимущества хранения прерывистых поддеревьев (например, больше X, чем X) и обнаруживает, что показатели F1 без них значительно ниже (72,1% для английского языка, 60,3% для немецкого языка и 43,5% для китайского).

Модель зависимостей с валентностью (DMV)

DMV был первым синтаксическим анализатором зависимостей, который показал более высокий уровень точности, чем простой базовый план с ветвлением вправо, где корень — это первое слово предложения, а каждое слово берет слово справа от него в качестве единственного аргумента (Спитковский и др., 2010). ). С тех пор многие неконтролируемые анализаторы зависимостей были основаны на DMV.

DMV — это порождающая модель зависимостей: скрытые переменные — это структуры зависимостей, а параметры — это вероятности, которые указывают, насколько вероятно будут генерироваться различные зависимости. Существует два типа параметров: 1) Pᴄʜᴏᴏꜱᴇ(a|h,dir), вероятность выбора определенного аргумента a при заданном голова h и направление a относительно h (влево или вправо); и 2) Pꜱᴛᴏᴘ(STOP|h,dir,adj), вероятность прекращения генерации аргументов в определенном направлении при заданном head h, направление остановки относительно h и будет ли следующий аргумент в направлении dir примыкать к h (другими словами, был ли уже сгенерирован аргумент в направлении dir). Именно переменная adj выражает информацию о валентности каждой головки, и именно представление этой информации о валентности дает название модели синтаксического анализа.

На рис. 2.4, взятом из работы Кляйн и Мэннинг (2002:129), показано дерево зависимостей для фабричных зарплатных ведомостей, упавших в сентябре, то же предложение в дереве избирательных округов на рис. 2.2:

DMV сначала начинается со специального корневого узла, который по соглашению создает корень слева от него. Затем остальная часть дерева генерируется рекурсивно, сначала в глубину, с правыми аргументами, генерируемыми перед левыми. Перед тем, как головка сгенерирует иждивенца, событие также сопровождается непрерывным событием, обозначающим решение модели продолжать генерировать иждивенцев в этом направлении. Вероятность этого непрерывного события определяется параметром Pꜱᴛᴏᴘ(¬STOP|h,dir,adj). Затем, когда головка заканчивает генерировать иждивенцев в этом направлении, она помечается стоп-событием. Следуя этой деривационной стратегии для получения дерева зависимостей на рис. 2.4, мы получаем следующую серию событий:

Из заданного корня структура генерируется путем определения правых аргументов этого корня (если они есть), затем остановки, затем его левых аргументов, затем остановки, затем рекурсивного повторения этого процесса с каждым аргументом, пока не будет покрыто все предложение. Эти деривационные шаги моделируются как серия независимых событий, вероятности которых можно перемножить, чтобы вычислить вероятность дерева зависимостей, которое также содержит предложение, которое оно генерирует. Подобно CCM, алгоритм обучения в DMV использует EM для оценки значений параметров; но, в отличие от CCM, максимизирует вероятность дерева зависимостей вместе с наблюдаемым текстом.

Что в конечном итоге увеличивает вероятность того, что одно слово будет проанализировано как аргумент другого слова (заголовка), то это высокий Pᴄʜᴏᴏꜱᴇ(a|h,dir). Это означает, что для увеличения шансов быть выбранным в качестве иждивенца головы иждивенец должен часто встречаться на одной и той же стороне головы, где бы ни находилась голова.

Кляйн и Мэннинг (2004) оценивают DMV на тех же корпусах, что и CCM. DMV обеспечивает уровень точности 43,2 %, если учитывается направление, по сравнению с точностью базовой линии для правой головы, равной 33,6 %, или 62,7 % по сравнению с 56,7 %, если направление не учитывается (таблица 2.2). В немецком и китайском языках его показатели точности также превосходят соседние эвристические базовые уровни (40,0% направленных и 57,8% ненаправленных для немецкого языка, 42,5% и 54,2% для китайского). Что касается оценок F1, DMV также превосходит соответствующие эвристические базовые показатели для немецкого и китайского языков. Однако на английском языке он дает значительно более низкий балл F1, чем лучший базовый уровень смежной эвристики (52,1% для DMV против 61,7% для правого ветвления).

Кляйн и Мэннинг (2004) затем экспериментируют с комбинацией CCM и DMV. Это возможно, потому что дерево зависимостей, формально определяемое как плоский, направленный, ациклический граф, на самом деле изоморфно бинарному ветвящемуся дереву с непрерывными составляющими. Кляйн и Мэннинг (2004:129) иллюстрируют эту изоморфию для одного и того же предложения на рис. 2.6a–c:

Деревья на рис. 2.6b и c идентичны, за исключением того, что нетерминалы на рис. 2.6c — это метки фразовых категорий, а на рис. 2.6b — POS-теги заголовков поддеревьев под ними. Например, поскольку фраза заводские платежные ведомости начинается с payrolls (NNS) (рис. 2.6a), нетерминал для этой фразы в дереве избирательных округов — ɴɴꜱ (рис. 2.6b). ). Точно так же in является нетерминалом в сентябре в дереве избирательных округов, поскольку он является началом предложной фразы, а ᴠʙᴅ является нетерминалом упал в сентябре, а также всего предложения, потому что в обоих случаях это голова.

В Klein and Manning (2004) CCM и DMV объединены с использованием алгоритма EM. На каждой итерации алгоритма для оценки вероятности нового комбинированного дерева вероятности событий как из дерева избирательных элементов, так и из дерева зависимостей для одного и того же предложения перемножаются. Комбинированная модель превосходит CCM и DMV как по точности направленной зависимости, так и по F1 (таблица 2.2).

Последние изменения

Поскольку DMV был предложен Кляйном и Мэннингом (2004), Стэнфордская группа НЛП внесла в него значительные улучшения. Спитковский и др. (2010) эксперимент с использованием обучающих данных возрастающей сложности («Baby Steps»), с обучающими данными, состоящими из более коротких предложений, содержащих не более 15 слов («Less is More»), и с обучающими данными, состоящими из более коротких предложений, за которыми внезапно следуют предложения. неограниченной длины («Чехарда»). Spitkovsky, Alshawi, & Jurafsky (2011) включают ограничения, связанные с пунктуацией, для ограничения обучения и логического вывода. В том же исследовании также проводятся эксперименты с «лексикализацией», когда слова, встречающиеся 100 и более раз при обучении, представлены как их POS-тегами, так и их поверхностными формами. Затем, как обсуждалось в предыдущем разделе, Спитковский, Алшави, Чанг и Джурафски (2011) заменяют POS-теги кластерами слов, индуцированными неконтролируемым алгоритмом POS-индукции Кларка (2000). Наилучшие результаты среди этих исследований были достигнуты за счет комбинации этой модели и модели с ограничениями пунктуации с дополнительным шагом, позволяющим каждому слову вероятностно назначать разные теги в зависимости от контекста.

Более поздние исследования достигают еще большего улучшения. Спитковский и др. (2012) описывают модель, называемую зависимостью и границей, в которой переменные, несущие информацию о границах предложений, включаются как заданные переменные в параметры. Совсем недавно в Spitkovsky et al. (2013), авторы экспериментируют с подходом, который напоминает генетические алгоритмы, перезапуская алгоритм обучения ЭМ с новыми, обоснованными оценками начальных значений параметров, с одной стороны, и, с другой стороны, объединяя возможные решения для получения лучших. В этом последнем исследовании сообщается, что уровень точности направленной зависимости составляет 72,0% для WSJ10, что почти на 30% выше, чем 43,2%, о которых сообщается для базовой модели DMV в Klein and Manning (2004).

В таблице 2.2 перечислены все сопоставимые результаты оценки для всех систем, упомянутых в этом разделе, а также производительность различных базовых уровней, контролируемой системы и теоретического верхнего предела. Он отражает неуклонный прогресс, достигнутый за последние 15 лет в неконтролируемом синтаксическом анализе, начиная с Кляйн и Мэннинг (2002):

Судя по имеющимся оценкам, общий прогресс неконтролируемых алгоритмов в задаче индукции синтаксиса неоднозначен. Контрольные показатели, оценивающие неконтролируемые алгоритмы POS-индукции, показывают, что ранние системы Brown et al. (1992) и Clark (2003) превосходят более современные системы. С другой стороны, в неконтролируемом синтаксическом анализе за последние 15 лет был достигнут значительный прогресс.

3. Градиентная синтаксическая модель

Однако важно видеть этот прогресс в контексте задачи, в которой достигается прогресс. В начале главы были выявлены два недостатка дискретного подхода: неспособность дискретных моделей фиксировать более тонкие вариации синтаксических паттернов и сложность использования лингвистических концепций высокого уровня в вычислительной модели. Изучив происхождение этих дискретных лингвистических понятий и их применение в неконтролируемых алгоритмах, мы теперь можем сделать шаг назад и увидеть эти проблемы более ясно.

Мы видели, как дискретные концепции частей речи, избирательного округа и зависимости были приняты в порождающие модели как постулированные скрытые базовые структуры, которые порождают наблюдаемые слова. Неспособные использовать расплывчатые высокоуровневые лингвистические определения для идентификации этих дискретных структур — структур, изначально разработанных для лингвистов-людей и ими — эти алгоритмы вместо этого выводят их вероятностно из простых низкоуровневых наблюдений. Неконтролируемые алгоритмы POS-индукции определяют части речи на основе контекста, в котором встречаются слова; неконтролируемые синтаксические анализаторы групп выводят деревья групп на основе частот последовательностей слов (или POS-тегов) и частот их подпоследовательностей; и неконтролируемые синтаксические анализаторы зависимостей выводят отношения зависимости на основе вероятностей слов (или тегов POS) с учетом появления других слов в том же предложении. Поскольку эти базовые структуры дискретны, модели вынуждены упрощать богатую градацию наблюдений, используя сложные методы, которые становятся еще более сложными. Короче говоря, мы используем все более сложные алгоритмы для упрощения изначально градиентных явлений до дискретных структур, которые изначально создавались для другой цели и смысл которых до сих пор не до конца ясен. Учитывая эту запутанную ситуацию, становится сомнительной важность улучшения способности делать выводы о плохо определенных лингвистических структурах.

Существующая установка в значительной степени основывается на фундаментальном утверждении генеративной грамматики: сложное градиентное поведение наблюдаемых языковых форм на самом деле генерируется чистыми скрытыми базовыми дискретными структурами. В лингвистике по поводу этого утверждения разгорелись острые споры. Однако противоречие трудно разрешить, потому что это порождающее утверждение трудно ни доказать, ни опровергнуть: поскольку наблюдаемый язык становится все более и более сложным, лежащие в его основе структуры всегда можно расширить, чтобы соответствовать ему.

Оценка теоретических достоинств генеративной грамматики выходит за рамки данной диссертации. Скорее, уместная критика здесь заключается в том, что текущий дискретно-генеративный подход плохо подходит для задачи неконтролируемого синтаксического анализа. Основная цель неконтролируемого синтаксического анализа — выявить регулярность в естественном языке. Эта закономерность должна быть уже заложена в языке, а не навязана ему. Генеративная дискретная модель, однако, предполагает большую регулярность, чем это требуется, и налагает ее на гораздо более сложные данные.

Таким образом, задача неконтролируемого синтаксического анализа требует синтаксической модели, которая делает столько утверждений, сколько необходимо для выявления синтаксической регулярности — не больше и не меньше. В следующей главе я опишу, реализую и оценю основы такой модели.

В предыдущей главе мы увидели, что части речи, составные части и зависимости представляют собой дискретные понятия, которые использовались для описания лингвистических явлений, которые, тем не менее, в своей основе являются градиентными. При наложении упрощенных категорий и бинарных отношений на шаблоны градиентов эти понятия становятся трудными для определения. Для целей лингвистического описания аккуратность этих дискретных понятий может быть более важной, чем сложность, которую они игнорируют. Однако для целей синтаксического анализа и компьютерного моделирования эта сложность имеет решающее значение для проведения точного синтаксического анализа.

3.1 Лексико-синтаксическое поведение

Напротив, синтаксическая модель градиента может быть построена с использованием концепций низкого уровня, которые могут быть строго определены. Такая модель может уловить множество тонких вариаций, которые в противном случае были бы подавлены в дискретной модели. Например, вместо того, чтобы классифицировать слова по частям речи, вместо этого слова можно оценивать по метрике, которая измеряет сходство их лексико-синтаксического поведения на основе количества общих контекстов. Таким образом, эта метрика может учитывать градиентные вариации лексико-синтаксического поведения, хотя она определяется гораздо точнее, чем части речи.

В этой главе я представлю синтаксическую модель градиента — модель, предназначенную для представления градиента в синтаксических паттернах. Он состоит из трех модулей: лексико-синтаксического сходства, фраз и условных вероятностей. Как описано выше, модуль лексико-синтаксического подобия измеряет степень сходства лексико-синтаксического поведения между парами слов. Модуль «Фразы» измеряет степень сходства в синтаксическом поведении между парами фраз как по их контексту (как в модуле «Лексико-синтаксическое сходство»), так и по составляющим их словам. Наконец, модуль условных вероятностей оценивает вероятность каждого элемента (слова или фразы) в предложении или его окрестности (набора элементов, похожих на него) при наличии другого элемента или его окрестности в указанной позиции в том же предложении. В каждом компоненте я сначала опишу, как модель идентифицирует синтаксические шаблоны, а затем представлю результаты и оценки. Последний компонент, «Условные вероятности», будет использовать результаты модулей «Лексико-синтаксическое сходство» и «Фразы» для расчета грамматических баллов для предложений и проведения их градиентного синтаксического анализа.

Реализация выполнена с использованием языка программирования Python. Использовался корпус Penn Treebank-3, который содержит 2499 статей на английском языке, выбранных из Wall Street Journal за 1989 год. Предложения в корпусе предварительно сегментированы. Общее количество слов в корпусе составляет 933 886 слов. Treebank-3 содержит аннотированные человеком (или золотой стандарт) части речи, а также синтаксические зависимости золотого стандарта.

В градиентной модели лексико-синтаксическое поведение слова можно описать степенью его сходства с другими словами, исходя из сходства их контекстов. Таким образом, это сходство можно назвать контекстным сходством. Это сравнение слов по их контексту вдохновлено контекстно-векторным подходом в алгоритмах POS-индукции. Как описано в предыдущей главе, такие алгоритмы обычно выбирают несколько часто встречающихся слов в качестве контекстных слов, а затем подсчитывают их появление рядом с другими неконтекстными словами в корпусе. Эти частоты контекстных слов собираются в векторы (или контекстные векторы) для каждого слова. Затем сходство между парой слов можно рассчитать как сходство между их векторами контекста.

3.2 Фразы

У этого способа определения контекстов есть несколько недостатков. Во-первых, длина этих контекстов фиксирована, обычно одно слово слева и одно слово справа. Эти контексты часто слишком короткие, чтобы включать важные элементы. Например, рассмотрим следующее предложение дата записи не была установлена. «³» Если добавить по одному слову с каждой стороны слова имеет, получится контекст дата ___ n't (где ___ — заполнитель для слова имеет). Однако в этом контексте будут пропущены более отдаленные шаблоны, такие как, например, тот факт, что неможет принимать причастие прошедшего времени, например been. Другая слабость заключается в том, что контекстные слова часто рассматриваются независимо друг от друга. Хотя это может иметь место в некоторых случаях, в целом это не может считаться правдой. Например, один из возможных контекстов для n’t в примере предложения — has ___ been. Здесь ясно, что вхождения has и been взаимозависимы.

В градиентной синтаксической модели размеры контекста не определены явно. Скорее, контексты извлекаются из повторяющихся последовательностей, последовательностей слов, которые встречаются более одного раза в обучающем корпусе. Эта стратегия запоминания повторяющихся последовательностей основана на интуитивном предположении, что если последовательность повторяется, она достаточно важна, чтобы ее можно было запомнить.

Последовательность a record из предыдущего примера встречается 58 раз в Penn Treebank и, следовательно, вполне может быть повторяющейся последовательностью. Каждая повторяющаяся последовательность дает контекст для каждого из содержащихся в ней слов, так что фраза запись дает два контекста: a ___ и ___ запись. Обратите внимание, что длина каждого контекста не фиксирована, а зависит от длины повторяющейся последовательности, из которой он создается. Первый контекст, a___, простирается на одно слово слева от record, заканчивается на a и не имеет правого контекста; второй контекст расширяется на одно слово вправо и не имеет левого контекста. Еще одна повторяющаяся последовательность, дата не установлена, встречается в корпусе трижды. Таким образом, контекст, который он вносит в слово имеет, представляет собой дата ___ n не была установлена, которая расширяет одно слово влево и три вправо.

Таким образом, контексты могут быть определены для каждого слова, которое встречается в повторяющейся последовательности, что приводит к набору контекстов или набору контекстов для каждого из этих слов. Поскольку не все слова встречаются в повторяющихся последовательностях в корпусе, не все слова имеют контекстные наборы. Для справки: в Penn Treebank есть 14 329 из 39 190 типов слов с контекстными наборами⁴.

³ Обратите внимание, что корпус рассматривает has и n’t как отдельные слова.

⁴ Включает $, %, слова с ведущими апострофами и цифры, но не включает все остальные знаки препинания.

3.1.1 Контекстное сходство

Поскольку контекстный набор слова отражает его лексико-синтаксическое поведение, разница между двумя словами или их лексико-синтаксическая дистанция может быть определена разницей между их контекстными наборами. Одна математическая мера, которая может уловить эту разницу, — это расстояние Жаккара, измерение степени различия между двумя множествами. Расстояние Жаккара между двумя наборами элементов — это размер пересечения двух наборов, деленный на размер их объединения, вычитаемый из единицы или

где A и B — наборы контекстов двух слов. Это гарантирует, что лексико-синтаксические расстояния останутся в диапазоне [0,1] (от нуля до единицы включительно на обоих концах). Чем больше лексико-синтаксическое расстояние между наборами контекстов двух слов, тем более различающимся считается лексико-синтаксическое поведение двух слов. «⁵»

Мы можем проиллюстрировать, как вычисляется расстояние Жаккара, используя контекстные наборы из трех слов: replace (переходный глагол), affect (еще один переходный глагол) и school. (существительное). Таблица 3.1 дает их контекст:

Следующая таблица, Таблица 3.2, показывает контексты, которые эти три слова имеют друг с другом:

Теперь можно рассчитать расстояние Жаккара между каждой парой трех слов. Например, наборы контекстов replace и affect имеют семь общих контекстов и всего 27 уникальных контекстов. Это дает им расстояние Жаккара

Расстояния Жаккара для всех трех пар слов следующие:

Как и ожидалось, replace имеет гораздо более короткое расстояние Жаккара от affect, чем любой из них от school. Поскольку replace и affect являются переходными глаголами, они имеют гораздо больше общего контекста, чем любой из них с school, существительным. Некоторые общие контексты являются общими для всех глаголов, например will ___ и would ___. Другие, такие как will ___ the и to ___ the, применимы только к переходным глаголам. Контексты ___ the и ___ a также применимы к переходным глаголам, хотя и не исключительно (они также применимы к наречиям, как в только the и только а). Несмотря на то, что это существительное, школа тем не менее по-прежнему разделяет контекст к ___ с аффект, а контекст и ___ с заменить. Эти контексты широко используются не только существительными и глаголами, но также прилагательными и наречиями (например, в далекие земли; быстро убежать; синий и красный). машины; двигаться легко и тихо). Таким образом, этот пример также иллюстрирует, как контексты могут различаться по степени избирательности.

Расстояние Жаккара, по-видимому, содержит врожденную предвзятость: слова с наборами контекстов одинакового размера, которые, как правило, являются словами с одинаковой частотой, как правило, имеют более короткие расстояния. Это связано с тем, что кратчайшее возможное расстояние Жаккара между двумя словами зависит от разницы в размере их наборов контекстов. Например, если два слова имеют контекстные множества одинакового размера, то в случае, когда они наиболее похожи, когда их контекстные множества идентичны, их пересечение будет таким же, как и их объединение, а их расстояние Жаккара будет равно нулю:

С другой стороны, если один набор контекстов меньше другого, пересечение двух наборов может быть не больше, чем меньший набор контекстов, который всегда будет меньше, чем их объединение:

Во втором примере, где у A есть один элемент, а у B — три, кратчайшее возможное расстояние Жаккара между A и B составляет 2/3, что является значительной разницей по сравнению с минимальным расстоянием 0 в первом примере.

Текущая версия синтаксической модели градиента не будет исправлять это смещение. Это связано с тем, что если бы обучающий корпус был достаточно большим, размер набора контекстов слова не зависел бы от частоты появления слова. В бесконечно большом корпусе все слова, независимо от их частотности, будут встречаться во всех контекстах, разрешенных языком. В этом случае различия в размере набора контекстов больше не будут результатом различий в частоте слов, а будут результатом различий в контекстуальном разнообразии. Тогда это будет уже не предвзятость, а отражение свойств сравниваемых слов. Хотя на практике все корпуса ограничены по размеру, в конце концов, проблема заключается в полноте корпуса, а не в самой метрике. Таким образом, расстояние Жаккара будет использоваться без каких-либо дополнительных модификаций.

⁵ «^» Коэффициент подобия Жаккара

также послужило бы цели. Однако расстояния можно легче сопоставить с математическими пространствами (например, с евклидовым пространством), что может оказаться полезным в будущем.

3.1.2 Оценка

Поскольку не существует установленных лексико-синтаксических дистанций между словами, которые можно было бы использовать в качестве эталона, дистанция Жаккара должна оцениваться косвенно. Одним из методов косвенной оценки является использование точности k, показателя, используемого в теории информации. Чтобы измерить точность при k расстояний Жаккара между словом (главное слово) и другими словами, с которыми оно сравнивается (его соседями), мы сортируем соседей от от кратчайшего расстояния Жаккара до самого дальнего. Затем мы сравниваем POS-теги заглавного слова с тегами каждого из его соседей (слово в Penn Treebank может иметь более одного тега). Если соседний элемент имеет хотя бы один общий тег с заглавным словом, этот сосед считается совпавшим. Точность k — это процент совпадений POS-тегов среди k наиболее похожих соседей. Это вычисляется для всех значений k. В идеале все совпадающие соседи должны располагаться вверху списка, а точность при k будет монотонно уменьшаться.

Мы выбираем образец из десяти слов из корпуса, представляющих десять различных ярлыков POS. Эти слова выбираются путем взятия первого слова в корпусе, которое имеет набор контекста и принадлежит к одной из десяти выбранных частей речи. Это следующие слова: in (предлог), an (определитель), oct. (имя собственное, конкретно название месяца), 19 (число), review (существительное нарицательное), 's (притяжательная клитика), взять (глагол, обычно переходный), устойчивый (прилагательное), будет (модальный) и ошибочно (наречие).

Следующие графики на рис. 3.1 показывают точность при k для каждого из десяти слов:

Как правило, точность достигает пика либо в самом верху рейтинга, либо вскоре после него, а затем постепенно падает. Это обнадеживает; это означает, что большинство соседей, которые имеют общий тег POS с заглавным словом, находятся в верхней части списка и ранжируются среди наиболее похожих соседей заглавного слова. На некоторых графиках действительно показано увеличение либо в верхней части рейтинга, либо ближе к середине. В частности, графики для неизменного, постоянного и ошибочного начинаются с 0,0, затем резко возрастают до своих пиков, а затем в основном монотонно снижаются. Графики для 19, будет, постоянно,и 's показывают небольшое увеличиваться до k=1001. 19, будет, постоянно и в также показывают небольшой рост в нижней части рейтинга. Самая большая аномалия наблюдается на графике для in, который постоянно увеличивается примерно с k=8001 до конца. Однако это мелкие несоответствия; общая тенденция на всех графиках по-прежнему монотонная.

Другой способ оценки этих ранжирований состоит в том, чтобы исследовать небольшое количество соседей с кратчайшими расстояниями Жаккара для каждого слова. В таблице 3.4 показаны десять ближайших соседей для каждого из выбранных десяти слов. Каждое слово перечислено со всеми POS-тегами, которые они получают в корпусе, «⁶», а каждый сосед указан с расстоянием Жаккара от его заглавного слова, округленным до ближайшей тысячной:

Среди списков в таблице 3.4 списки для oct., 19 и take содержат особенно похожих соседей. Ближайшими соседями октябрь являются не только имена собственные, но и месяцы года; ближайшими соседями 19 являются другие числа, которые, как ни странно, оказываются целыми числами, близкими к 19; а ближайшими соседями взять являются глаголы, которые не только не являются третьим лицом единственного числа настоящего времени, но также являются переходными. Кроме того, соседи take отражают смещение Jaccard Distance в сторону соседей с аналогичной частотой: take занимает 219-е место по частоте из 39 213 типов слов, в то время как его ближайшие десять соседей занимает место со 141-го для make до 853-го для turn. ⁷ Это смещение особенно заметно среди слов в больших классах, таких как существительные и глаголы, которые сильно различаются по частоте.

Четыре других списка, для in, an, review и will, также состоят из довольно похожих соседей. Соседи in, как и in, в основном являются предлогами; исключениями являются and и that, которые, вероятно, были сочтены похожими, поскольку за ними также часто следуют существительные. Ближайшими соседями определителя an являются все слова, которые, хотя и не являются строго определителями, функционируют очень похоже на определители: обладатели (их, его, и его), квантификаторы (какой-то, больше, один), предлог (о) и предопределитель (только) и показательный (это). Семь наиболее похожих соседей review, как и сам review, являются переходными глаголами, которые также могут быть исчисляемыми существительными; остальные три по-прежнему соответствуют review, поскольку являются существительными. Соседи review также отражают смещение частоты Jaccard Distance: review занимает 1462-е место, а частотные ранги его соседей варьируются от 1244-го для test. до 3274 для рассмотрения. Наконец, среди ближайших соседей слова will девять из десяти являются либо модальными, либо вспомогательными, за единственным исключением также.

Поиск ближайших соседей для — более сложная задача; его функция в качестве притяжательного маркера уже совершенно уникальна в английском языке, не говоря уже о сочетании этой функции с другими его обязанностями, такими как сокращение is, was и имеет. Три из четырех ближайших соседей 's – это три формы настоящего глагола в третьем лице единственного числа: is, was и has. , для которого он служит сокращением. Пять других соседей (это, это, в, для, а) слова, за которыми, как и притяжательная клитика 's, обычно следуют существительные. И и сказанный несколько неуместны, но они, вероятно, присутствуют из-за того, что оба, как и 's, также часто встречаются между двумя словосочетаниями.

Судя по их POS-тегам, ближайшие соседи тегов постоянно и ошибочно кажутся более слабыми совпадениями; тем не менее, их соседи имеют некоторое поверхностное сходство с их заглавными словами. Список для устойчивый содержит только три других модификатора: два прилагательных (последняя минута и деликатный) и причастие (провисающий). Остальные являются существительными, хотя второе место выстрел также является глаголом (как прошедшее время и причастие прошедшего времени стрелять). Однако включение существительных в этот список не так неразумно, как кажется: у существительных и прилагательных действительно есть некоторые общие контексты. Например, и существительные, и прилагательные могут следовать за определителями (например, постоянный поток; разговор), хотя более широкий контекст покажет, что за прилагательными в конечном итоге должно следовать существительное. Фактически, единственными двумя контекстами, общими для восьми нижних соседей в списке для steady, являются a ___ и the ___. И за существительными, и за прилагательными также могут следовать предложные фразы (например, постоянно составляет около 6,2%, что разговор в резиденции посла США). Прилагательные также имеют общий контекст с причастиями прошедшего и настоящего времени, такими как провисание и выстрел; например, причастия прошедшего времени также могут следовать за связкой (например, был устойчивый; был застрелен), в то время как причастия настоящего времени также могут атрибутивно предшествовать существительным (например, непрерывный поток; проседающая экономика).

Ближайшие соседи ошибочно совпадают хуже, чем соседи устойчиво: ни одно из них не помечено как наречие (RB). Отчасти это связано с низкой частотой ошибочно, которая встречается в корпусе всего шесть раз (дальнейшее обсуждение следует в следующем разделе). Кроме того, все его контексты получены из подпоследовательностей одной повторяющейся последовательности, которая была ошибочно показана в таблице неожиданных квартальных доходов. Он разделяет только один контекст с каждым из своих соседей в списке, were ___, и это также единственный контекст многих его соседей. Относительно низкое сходство ближайших соседей ошибочно показывает, что лексико-синтаксические сходства, чтобы быть значимыми, не могут зависеть только от одного контекста, а должны основываться на большом количестве контекстов — чем больше, тем лучше.

⁶ «^» Некоторые сомнительно выглядящие теги, такие как ɴɴᴘ для and и ᴠʙ для nov., вероятно, связаны с соглашениями о тегах в Penn Treebank. Тем не менее, я решил включить их здесь.

⁷ ^ Как упоминалось ранее, ранжирование по частоте исключает все знаки препинания, кроме апострофов, $ и точек в аббревиатурах.

3.1.3 Обсуждение

Измерение лексико-синтаксического сходства между парами слов с помощью расстояния Жаккара обеспечивает жизнеспособную альтернативу частям речи со всеми дополнительными преимуществами градиентной модели. Точность результатов k для соседей выборки из десяти слов с разнообразным лексико-синтаксическим поведением показывает, что совпадающие соседи обычно имеют более короткие расстояния Жаккара, чем другие слова. Более внимательное изучение списков десяти наиболее похожих соседей для десяти слов в выборке показывает, что Jaccard Distances может выявить глубокое лексико-синтаксическое сходство.

Тем не менее, как минимум два списка в таблице 3.4 несколько слабы. Количество слабых совпадений в первой десятке списков соседей выше для слов с низкой частотностью. В табл. 3.5 показаны необработанные частоты десяти слов в оценочной выборке, их ранжирование по частоте и количество контекстов в их наборах контекстов. Слова с наиболее сильным совпадением, октябрь и 19, не имеют самых высоких частот или большинства контекстов; однако те, у которых самые слабые совпадения, постоянные и ошибочные, имеют самые низкие частоты и наименьшее количество контекстов. Сильные совпадения в списках для oct. и 19, возможно, связаны с их более строгим контекстом. В любом случае данные свидетельствуют о том, что высокая частота и небольшие размеры контекста по сравнению со степенью контекстуального разнообразия являются фактором, влияющим на эффективность метрики.

Эффективность дистанции Жаккара также ограничена ее зависимостью от контекстов, которые являются как локальными (т.е. непосредственно смежными), так и чисто лексическими (т.е. без информации об общем лексико-синтаксическом поведении слов в контекстах). В то время как локальные контексты теоретически могут включать контекстную информацию на большом расстоянии, более длинные повторяющиеся последовательности встречаются реже, что затрудняет идентификацию удаленных контекстов. Более крупный обучающий корпус повысит частотность всех слов; однако каким бы большим ни был корпус, закон Ципфа гарантирует, что в нем всегда будет значительное количество низкочастотных слов. Более систематическим решением было бы обобщить слова в контексте на другие подобные слова, чтобы контексты можно было сгруппировать с другими подобными контекстами. Например, прекрасный ___ и прекрасный ___ могут быть распознаны как похожие контексты, если сходство прекрасный и красивый > Модель известна. Однако это сходство и есть та самая информация, которую пытается собрать модуль лексико-синтаксического сходства.

Одним из решений является повторение алгоритма обучения. К концу одной полной итерации обучения модель получит расстояния Жаккара между всеми парами слов с наборами контекстов. В последующей итерации эти расстояния можно было бы затем использовать для обобщения каждого контекста на группы похожих контекстов, тем самым увеличивая количество экземпляров, доступных для модели. Это также повысит частоту более длинных контекстов, что облегчит вывод контекстуальной информации на большом расстоянии. Это, в свою очередь, позволяет модели обновлять свои расстояния Жаккара, чтобы отражать более глубокие лексико-синтаксические сходства. Как объяснялось во введении, итеративное обучение, к сожалению, выходит за рамки настоящей диссертации, но мы надеемся, что оно будет реализовано в будущем.

В самом общем смысле фразы — это просто последовательности из нескольких слов, которые ведут себя как единое целое. Отдельные слова ведут себя как единое целое, когда они ограничивают поведение друг друга. Эти ограничения могут работать на разных уровнях: фонологическом, морфологическом, синтаксическом или семантическом. Поскольку текущая модель является синтаксической моделью без доступа к семантике, она будет рассматривать фразы как единицы, налагающие синтаксические ограничения на составляющие ее слова. Пример синтаксического ограничения можно увидеть, например, в именной фразе эти преимущества. Эта фраза содержит два ограничения: определитель эти должен стоять перед существительным преимущества, и множественность каждого слова должна согласовываться с множественностью другого.

3.3 Условные вероятности

Задача модели состоит в том, чтобы идентифицировать синтаксические фразы без использования лингвистических понятий более высокого уровня (например, частей речи, множественного числа). В этом разделе мы разработаем метрику для измерения единичного поведения фраз, используя в качестве отправной точки относительную частоту (Hay 2001, Bybee 2010). Мы также разработаем два различных способа измерения степени сходства между фразами: путем сравнения их контекстов (контекстное сходство) и путем сравнения составляющих их слов (внутреннее сходство).

3.2.1 Фразовая связность

Фразовая согласованность – это степень, в которой фраза ведет себя как единое целое. Поскольку фразы могут содержать разное количество ограничений — и разной силы — фразовая согласованность — это градиентное свойство, которое должно быть измеримым. Отправной точкой является представление об относительной частотности, отношении частотности морфологически сложного слова к частотности его основы (Hay 2001). В Hay (2001) показано, что высокая относительная частота коррелирует с более низкой семантической прозрачностью. Позже Байби (2010: 149) применяет относительную частоту к фразам, вычисляя частоту комбинаций вспомогательного и герундия в испанском языке в процентах от вспомогательного или герундия.

Измерение фразовой связности требует несколько иной информации — частоту фразы следует сравнивать не с частотой отдельных слов, входящих в нее, а с частотой, которую мы ожидаем от фразы, если бы слова, входящие в ее состав, встречались совершенно независимо друг от друга. Эта базовая частота может быть рассчитана как произведение относительных частот составляющих его слов. Чем выше наблюдаемая частота фразы по отношению к базовой частоте, тем выше ее фразовая связность.

Это чем-то похоже на точечную взаимную информацию (PMI). В теории информации PMI — это разница в самоинформации между двумя событиями, происходящими вместе как совместное событие, и теми же двумя событиями, происходящими как независимые события:

где x и y — два события. Во фразе x и y представляют ее составные слова.

Применение этой формулы к фразам требует двух модификаций. Во-первых, фразы не ограничиваются двумя словами, а могут состоять из любого количества. Во-вторых, в отличие от событий в PMI, слова во фразе встречаются последовательно и в определенном порядке. Это не влечет за собой разницы в подсчете, но тем не менее вносит разницу в обозначения: появление фразы в числителе следует считать единичным событием, а не совместным событием.

С учетом этих двух соображений пересмотренная мера, которая будет называться sпоследовательной точечной взаимной информацией (или SPMI), может быть определена как

где k — длина фразы, wᵢ — i-е слово во фразе, а

- частота фразы в корпусе. В соответствии с соглашением по информатике используется логарифм по основанию два.

Эти понятия можно обобщить в следующем рабочем определении фразы:

Фраза —

Фраза – это последовательность из более чем одного слова, наблюдаемая частота которых в корпусе выше, чем базовая частота, когда все входящие в нее слова встречаются независимо друг от друга.

Степень когерентности фразы измеряется ее последовательной точечной взаимной информацией (SPMI), которая определяется

Чтобы проиллюстрировать типы фраз с высоким значением SPMI, в Таблице 3.6 показаны десять фраз с самым высоким значением SPMI длины два, три и четыре соответственно: «⁸»

Беглый взгляд показывает, что почти все фразы с самыми высокими SPMI любой длины являются именами собственными. В этом есть смысл: многие слова, составляющие эти последовательности, имеют очень низкую частоту в корпусе, что, в свою очередь, приводит к очень низкой базовой частоте этих фраз. Хотя большинство перечисленных фраз встречаются в корпусе только два или три раза, их низкая базовая вероятность приводит к высоким значениям SPMI.

Обратите внимание, что высокий SPMI не гарантирует, что последовательность является полной фразой. В частности, списки в таблице 3.4 содержат некоторые фразы, которые являются неполными фразами и встречаются только в составе более длинных фраз. Например, фразы ho chi и chi minh встречаются только как часть более длинной фразы ho chi minh. «⁹» Чтобы определить, является ли фраза может встречаться вне какой-то более длинной фразы, нам просто нужно сравнить частоту более короткой фразы с частотой более длинной. Если частоты одинаковы, более короткая фраза может встречаться только как часть более длинной. Например, ho chi minh встречается дважды, как и ho chi и chi minh; таким образом, мы знаем, что две более короткие фразы встречаются только как часть более длинной.

В качестве дополнительной иллюстрации мы можем измерить SPMI повторяющихся последовательностей в предложении, взятом из Penn Treebank. Повторяющиеся последовательности в предложении перечислены ниже в Таблице 3.7 вместе с их подсчетами частоты и SPMI. Фразы отсортированы от наибольшего SPMI к наименьшему. Опять же, для справки, общее количество токенов слов в корпусе составляет 933 886:

Таблица 3.7 показывает, что более длинные фразы, как правило, имеют более высокие SPMI. Это связано с тем, что по мере того, как фразы становятся длиннее, их базовые вероятности падают экспоненциально, поскольку они являются произведением вероятностей всех отдельных слов во фразе. Этот уклон в сторону более длинных фраз на самом деле желателен: SPMI должны отражать тот факт, что частое появление более длинных фраз менее вероятно и, следовательно, более информативно, чем такое же частое появление более коротких фраз.

В отличие от обычного фразового анализа, фразы в градиентной синтаксической модели не являются дискретными единицами. Таким образом, они могут частично перекрываться. И хотя некоторые фразы сильнее других с точки зрения их SPMI, все они считаются действительными фразами и являются частью окончательного анализа предложения.

Насколько хорошо эти измерения SPMI соответствуют общепринятым представлениям о том, какие последовательности должны быть фразами? Для сравнения, ниже приведены фразы, которые были бы частью генеративного анализа структуры фразы:

производитель автомобилей класса люкс (NP)
производитель автомобилей класса люкс (N')
производитель автомобилей (N')
в прошлом году (AdvP)
1214 автомобилей (NP)
в США (PP)
США (НП)

Если бы показатели SPMI согласовывались с генеративным анализом, все фразы в генеративном анализе были бы на вершине рейтинга SPMI, и наоборот. Два из них на самом деле таковы: именное словосочетание производитель роскошных автомобилей имеет самый высокий SPMI, а содержащаяся в нем N’, производитель роскошных автомобилей, занимает второе место. Однако существует множество фраз, по которым генеративный анализ и ранжирование SPMI не согласуются. Один из них, 1214 автомобилей, является фразой из генеративного анализа, которая не фигурирует в рейтинге SPMI. Это потому, что это не повторяющаяся последовательность в корпусе, скорее всего, из-за уникальности числительного 1214. Остальные несовпадения представляют собой повторяющиеся последовательности, которые не обнаруживаются при генеративном анализе.

Основная причина несоответствия между показателями SPMI и обычным фразовым анализом заключается в том, что традиционный анализ основан не на свойствах конкретных фраз, а на свойствах типов фраз или фразовых категорий, таких как существительные фразы, прилагательные фразы и так далее. Определение частых типов фраз дает более широкие синтаксические модели, чем определение отдельных фраз. В градиентной структуре вместо использования дискретных фразовых категорий это можно сделать, определив похожие фразы, используя метрику сходства, аналогичную лексико-синтаксической мере сходства в последнем разделе, а затем определив порог.

С этой целью мы должны сначала определить измерение фразового сходства.

⁸ «^» Все первые десять элементов длины 2 связаны в SPMI.

⁹ ^ Хо Ши Мин был первым президентом и премьер-министром Северного Вьетнама.

3.2.2 Фразовое сравнение

Модуль «Лексико-синтаксическое сходство» измерял степень сходства лексико-синтаксического поведения между парами слов. В модуле «Фразы» измеряется сходство между парами фраз. Есть два способа сравнить фразы. Одним из них является контекстное сравнение, когда сходство между двумя фразами принимается за сходство между наборами их контекстов, как это делалось ранее для пар слов. Две фразы также можно сравнить с помощью внутреннего сравнения, которое сравнивает сходство между словами в двух фразах, занимающих каждую линейную позицию. Ниже я более подробно опишу каждый тип сравнения, а также представлю их реализацию и оценку.

Контекстное сравнение

Контекстное сравнение относится к сравнению двух элементов по контексту, в котором они встречаются. Контекстное сравнение фраз происходит в манере, очень похожей на измерение лексико-синтаксического сходства. Контексты фраз извлекаются из более длинных повторяющихся последовательностей, содержащих эти фразы, а затем фразы удаляются. Например, чтобы извлечь контекст для фразы главный исполнительный директор из повторяющейся последовательности президент и главный исполнительный директор, мы можем убрать главный исполнительный директор в более длинной последовательности, чтобы получить контекст президент и ___. Затем этот контекст можно ввести в набор контекстов главного исполнительного директора. Как только наборы контекстов установлены для максимально возможного количества фраз, их можно использовать для вычисления расстояний Жаккара между парами фраз.

Чтобы оценить, насколько хорошо контекстуальные сравнения фраз согласуются с общепринятыми фразовыми категориями, мы можем изучить списки наиболее похожих фразовых соседей для выборки из пяти фраз, каждая из которых представляет одну из пяти основных фразовых категорий: именная фраза, глагольная фраза, прилагательная фраза, наречное словосочетание и предложное словосочетание.

В идеале этот образец из пяти фраз должен быть выбран случайным образом; к сожалению, многие фразы имеют очень маленькие наборы контекстов, из-за чего оценки сходства основаны на очень поверхностных сходствах. Как обсуждалось ранее, в будущей версии модели, в которой обучение будет состоять из нескольких итераций, контексты могут быть обобщены на другие подобные контексты с использованием информации, полученной в более ранних итерациях. Это должно компенсировать проблему небольших наборов контекстов. Однако на этом этапе фразы с небольшим контекстом не будут работать хорошо и не смогут точно отразить потенциал контекстуального сравнения.

Таким образом, для нашей оценки мы выберем фразы с достаточно широким контекстом, чтобы представить каждую из пяти фразовых категорий: лето (собственное словосочетание), найти (инфинитивное глагольное словосочетание). ), более сложно (прилагательное), очень сильно (наречное словосочетание) и в США (предлог). Ниже приведены списки 10 соседей с наименьшими расстояниями Жаккара для каждой из этих пяти фраз:

Из десяти ближайших соседей слова лето восемь являются правильно сформированными именными словосочетаниями. Среди оставшихся двух словосочетание 1990, потому что близко к правильной форме, отличаясь от именной группы только присутствием потому что. Его низкое расстояние Жаккара, скорее всего, связано с общим контекстом в ___ из с заглавной фразой, а также с двумя контекстами подпоследовательности в ___ и ___ из.«¹⁰» Другой несоответствующий сосед, бельгия сказала …, также занимает высокое место из-за контекста в ___ of. Такие фразы, как бельгия сказала…, проблематичны для контекстуального сравнения, потому что длинные фразы с редкой структурой могут иногда иметь случайный контекст с фразами с общей структурой. Это похоже на проблему с измерением лексико-синтаксического сходства, которое часто слишком сильно искажалось поверхностным сходством для слов с низкой частотностью и небольшим размером контекста. Опять же, обобщенные контексты могли бы решить эту проблему.

Список десяти ближайших соседей инфинитивной глагольной фразы to find также состоит в основном из однотипных фраз; все они по крайней мере содержат инфинитивные глагольные фразы. Семь представляют собой инфинитивные глагольные фразы с той же структурой, что и головная фраза (to, за которой следует глагол), а остальные три содержат дополнительный материал справа (чтобы найти покупателя на, чтобы найти смещающиеся разрезы) или влево (после неудачного поиска). Все три из них по-прежнему содержат полную заглавную фразу чтобы найти.

По сравнению с первыми двумя списками, список ближайших соседей для прилагательной фразы более сложный является более смешанным. Из этих десяти соседей три (также вероятно, не могу, почти наверняка), как и заглавная фраза, содержат наречие следует прилагательное. Два других содержат подходящее прилагательное, но с дополнительным словом (более сложно, более сложно). Три других заканчиваются прилагательными, но перед ними ставится связка вместо наречия (легко, безопасно, важно). Остальные два состоят из глагольной фразы (пытается) и именной фразы (смущение).

Большая дисперсия в этом списке может быть связана как минимум с тремя факторами, которые в некоторой степени взаимно усиливают друг друга. Во-первых, сложнее имеет небольшой набор контекстов, всего 12 контекстов (таблица 3.11). Таким образом, многие из его фразовых соседей получают низкие расстояния Жаккара до него на основе только шести широко используемых контекстов, которые основаны только на двух повторяющихся последовательностях: it ___ to вместе с контекстами подпоследовательностей это ___ и ___ к; и от ___ до, а также от ___ и ___ до. Фактически, совместного использования трех контекстов с более сложным достаточно, чтобы фраза достигла расстояния Жаккара, равного 0,75, что соответствует расстоянию, достигнутому восемью нижними фразами в списке.

Проблема наличия небольшого набора контекстов усугубляется другой проблемой, самими общими контекстами. Три контекста, наиболее широко используемые фразовыми соседями в списке, it ___ to, it ___ и ___ to, не очень избирательны и могут встречаться с самыми разными словосочетаниями: помимо словосочетаний-прилагательных (например, [сделать]это труднее), они также могут легко вмещать глагольные словосочетания, особенно те, которые начинаются со связки (например, это легко, важно, безопасно).

Третий фактор, и, возможно, более важный в данном случае, заключается в том, что в обучающем корпусе изначально мало фраз с совпадающей последовательностью POS-тегов. Как показано в таблице 3.11, в обучающем корпусе есть только 24 повторяющихся последовательности, которые разделяют точную последовательность тегов POS как более сложные, по сравнению с 1639 для летом и 489 для em>найти. Чем меньше совпадающих фраз в корпусе, тем меньше вероятность того, что какая-либо из этих фраз будет иметь много общих контекстов с более сложными. Например, фраза с последовательностью тегов ʀʙʀ ᴊᴊ, которая имеет наименьшее расстояние Жаккара до более сложно, является фразой менее вероятно. Несмотря на сходство с заглавной фразой, набор ее контекстов имеет только один контекст: от ___ до. Хотя более сложный тоже имеет этот контекст, это очень распространенный контекст, общий для многих других фраз. Между тем, для такой фразы, как лето, которая состоит из 1639 фраз с идентичной последовательностью тегов, многие из них имеют достаточно общих контекстов с летом, чтобы достичь низких расстояний Жаккара.

Список ближайших соседей для наречной (а иногда и прилагательной) фразы очень много содержит еще меньше совпадающих соседей, чем более сложный. Он содержит всего две фразы с точно совпадающими последовательностями POS-тегов: сильно сконцентрированные и не одни. Среди остальных наиболее близкими совпадениями являются три фразы, начинающиеся с причастий прошедшего времени: рассматривается…, запланировано открытие и ожидается начало. Поскольку причастия прошедшего времени часто ведут себя как прилагательные, эти фразы, вероятно, имеют тот же контекст, что и прилагательные в контексте очень много. Остальные состоят из четырех именных словосочетаний и нефразового словосочетания, которое отличается от именного словосочетания на одно слово (на основе внештатного автора).

Причины малого количества совпадающих соседей для очень сильно, по-видимому, те же, что и для более сложного: мало совпадающих фраз в обучающем корпусе, небольшие наборы контекстов. , и контексты, которые слишком распространены. Среди фраз с контекстными наборами только 178 соответствуют одной из двух последовательностей POS-тегов очень много (63 с ʀʙ ʀʙ и 115 с ʀʙ ᴊᴊ). Это больше, чем 24 фразы, которые соответствуют более сложному, но все же намного меньше, чем 1639 совпадений лето. Как упоминалось ранее, наличие небольшого количества совпадающих фраз в корпусе снижает вероятность того, что какая-либо из них будет иметь достаточно общих контекстов с заглавной фразой, чтобы достичь низкого расстояния Жаккара до нее. Еще больше усугубляет проблему небольшой размер контекста очень много, который имеет только 7 контекстов, наименьшее из пяти оцениваемых фраз. Наконец, контексты, наиболее часто используемые фразовыми соседями в списке, является ___ в, вместе с его контекстами подпоследовательности является ___ и ___ в , может встречаться с фразами с широким спектром поведения.

Учебный корпус содержит ряд длинных повторяющихся последовательностей, и содержащиеся в них подпоследовательности также становятся повторяющимися последовательностями. Здесь некоторые из них поднялись на вершину списка как ближайшие соседи в США. Из десяти перечисленных фраз восемь самых популярных фраз (девять, включая us.)являются просто подпоследовательностями двух длинных повторяющихся последовательностей: in the us. с использованием той же анкеты и в США. и не США рынки капитала. Эти фразы достигают низких расстояний Жаккара, потому что все они имеют одинаковый и часто очень специфический левый контекст (например, опросить каждое домашнее хозяйство___), что и заглавная фраза. Точно так же фраза нас появляется в списке главным образом потому, что оно имеет много общих правильных контекстов с заглавной фразой.

Мы можем попытаться исправить это, обрезав контексты подпоследовательностей. Результирующий список ближайших соседей будет выглядеть следующим образом:

Список теперь свободен от этих избыточных подпоследовательностей длинных повторяющихся последовательностей, содержащих заглавную фразу. Теперь в списке четыре уникальных фразы с предлогами, и все они находятся в самом верху. Фраза последний месяц на пятом месте — это наречие времени, которое ведет себя так же, как фразы с предлогами. Однако нижняя половина списка несколько разочаровывает: за исключением одной именной фразы (the issue), все остальные не являются словосочетаниями.

Для в США наличие довольно плохих совпадений в нижней половине списка не может быть связано с небольшим набором контекста; его набор контекстов содержит 249 контекстов, что является наибольшим из пяти оцененных здесь фраз. И количество подобных фраз в учебном корпусе не особенно мало. Трудность, кажется, заключается в другом.

Три взаимосвязанных фактора, по-видимому, усложняют контекстуальное сравнение с предложными фразами, такими как in the u.s.. Во-первых, предложные фразы могут встречаться в широком диапазоне контекстов. Это снижает вероятность того, что любые две предложные фразы будут иметь один и тот же контекст. Поскольку наречия и наречные фразы также встречаются в широком диапазоне контекстов, этот фактор также, вероятно, является причиной относительно плохого соответствия между ближайшими соседями фраз более сложно и очень сильно . Во-вторых, когда предложная фраза имеет общий контекст с другой фразой, контекст часто оказывается слишком общим, допуская слишком много различных типов фраз. Среди контекстов, общих для в us и его соседях, многие являются чисто правильными контекстами, состоящими из предлогов, союза и и форм глаголов иметь и быть. В такие контексты может вписаться практически любая фраза. Наконец, многие контексты слова в США, которые не совпадают с его ближайшими соседями в таблице 3.14, слишком специфичны. Слова, примыкающие к заглавной фразе в этих контекстах, имеют слишком низкую частотность, чтобы их можно было применить к очень многим другим фразам; примеры включают замедление ___ экономики и неожиданно резкое увеличение ___ торгового разрыва. Если бы модель могла обобщить эти контексты на другие синтаксически похожие контексты, ближайшие соседи в США могли бы состоять из большего количества предложных фраз или, по крайней мере, фраз с более похожим поведением.

Решения всех этих проблем такие же, как и предложенные для неудовлетворительных совпадений по лексико-синтаксическому сходству. Более крупный корпус, вероятно, привел бы к некоторым улучшениям. Однако, вероятно, более эффективно итерировать процесс обучения, чтобы можно было идентифицировать и использовать вместе схожие контексты, можно было расширить их применимость и определить более длинные контексты.

Внутреннее сравнение

Помимо сравнения по контексту, фразы также можно сравнивать по их внутренней структуре. Например, фразы, состоящие из определителя, за которым следует существительное (например, компания, книга, это место), имеют схожую внутреннюю структуру; в каждой позиции слова они состоят из слов со схожим лексико-синтаксическим поведением. Хотя внутреннее сравнение не сравнивает контексты фраз, фразы с похожей внутренней структурой, тем не менее, имеют сильную тенденцию встречаться в похожих контекстах. Фразы, состоящие из определителя и существительного, подобные только что перечисленным, почти всегда встречаются в контекстах, типичных для существительных.

Один из способов внутреннего сравнения двух фраз, если каждая из них содержит одинаковое количество слов, состоит в том, чтобы вычислить расстояние Жаккара между словами в каждой линейной позиции, положение за положением, а затем добавить полученные сходства в одно измерение сходства. Это измерение можно назвать последовательным расстоянием.

На практике возникает проблема с вычислением последовательного расстояния путем простого сложения этих необработанных расстояний Жаккара: различия между большими и малыми расстояниями Жаккара часто слишком малы, чтобы существенно повлиять на окончательную сумму. Например, при оценке расстояния Жаккара в первом модуле наиболее похожим соседом in был for с расстоянием Жаккара, равным 0,930. Это оставляет только разницу в 0,07 между наиболее похожим соседним словом и самым непохожим из возможных словом, которое будет иметь расстояние Жаккара, равное 1,0. Это различие может быть легко заглушено шумом в другом месте фразы. Кроме того, соседи разных слов имеют разные диапазоны расстояний Жаккара. В то время как ближайший сосед в имеет расстояние Жаккара 0,930, переходные глаголы replace и аффект (таблица 3.3) имеют расстояние Жаккара 0,741. Это несоответствие может сделать сравнения очень непредсказуемыми.

Следовательно, чтобы иметь информативное последовательное расстояние, нам нужно преувеличить разницу между расстояниями Жаккара похожих и непохожих соседей. Один из способов сделать это - преобразовать расстояния Жаккара, взяв разницу между 1 и расстоянием Жаккара, а затем взяв обратную величину этого расстояния, или

Наименьшее значение этого преобразованного расстояния Жаккара будет равно 1, когда xᵢ и yᵢ идентичны, а наивысшее значение будет неограниченным, когда xᵢ и yᵢ не имеют общих контекстов. Это означает, что некоторые фразы могут иметь бесконечные последовательные расстояния; однако это не проблема, поскольку модель занимается выявлением наиболее похожих фраз, а не самых непохожих. «¹¹»

Таким образом, мы приходим к следующему определению последовательного расстояния:

Последовательное расстояние –

Последовательное расстояние между двумя последовательностями слов, x и y, каждая из которых содержит одинаковое количество слов, представляет собой сумму обратной величины сходства Жаккара (один минус расстояние Жаккара) между словом из x и словом из y в каждой позиции слова. То есть

где xᵢ и yᵢ — слова в позиции i во фразах x и y соответственно, а dᴊ(xᵢ,yᵢ) — это расстояние Жаккара между ними. Низкое значение seqdist означает, что пара фраз последовательно подобна.

Чтобы проиллюстрировать пример, рассмотрим фразы в США и на компьютере. Чтобы измерить последовательное расстояние между ними, слова в каждой фразе сравниваются по положению, так что in сравнивается с on, the сравнивается с a, а нас сравнивается с компьютер. Применив приведенную выше формулу к двум фразам, мы получим следующее:

Таким образом, последовательное расстояние между в США и на компьютере составляет 66,673.«¹²» Чтобы обеспечить точку отсчета для этого необработанного последовательного расстояния, если фраза на компьютере фактически находились в корпусе, он занимал бы 690-е место по наименьшему последовательному расстоянию до фразы in the us из 54 241 фразы из трех слов в корпусе (другими словами, в верхнем втором процентиле).

Тот факт, что на компьютере не является фразой в обучающем корпусе, иллюстрирует, как можно вычислить последовательные расстояния между двумя фразами, которых нет в корпусе. Поскольку каждое слово в обеих фразах имеет наборы контекстов, можно рассчитать расстояния Жаккара между словами в каждой позиции слова, а оттуда также можно рассчитать последовательное расстояние фраз.

Поскольку последовательное расстояние не нормализовано для длины фразы, оно имеет тенденцию назначать более короткие последовательные расстояния более коротким фразам. Поскольку последовательные расстояния рассчитываются только между фразами одинаковой длины, это смещение длины не является проблемой при различении соседей одной и той же фразы. Однако при сравнении близости соседей разных фраз последовательные расстояния должны быть нормированы по длине.

Чтобы оценить, насколько хорошо последовательное расстояние согласуется с традиционным лингвистическим анализом, мы можем повторить методологию из раздела контекстуального сравнения и изучить наиболее похожие фразовые соседи пяти фраз, по одной из каждого из пяти типов фраз: роль (существительная группа), не было установлено (глагольная группа), частично ответственный (прилагательное), более тесно (наречная фраза) и in the us (предложная фраза). Эти пять фраз являются первым экземпляром каждого типа фразы в корпусе, который содержит только слова с наборами контекста. Ниже перечислены десять наиболее похожих фразовых соседей для каждой из фраз с их последовательными расстояниями (округленными до тысячных), их нормализованными последовательными расстояниями и их POS-тегами:

Первая десятка соответствий словосочетанию the role — это словосочетание с очень похожей структурой. Все состоят из определителя, за которым следует существительное; девять из этих существительных стоят даже в единственном числе. Все эти фразовые соседи, как и заглавная фраза, также начинаются с одного и того же определителя the, тем самым значительно уменьшая последовательное расстояние. Кроме того, с большим количеством существительных в корпусе также имеется большое количество существительных, которые встречаются во многих из тех же контекстов, что и role. Это положительно контрастирует с проблемной ситуацией, которая наблюдалась ранее с параметрами сложнее и очень сильно.

В целом, десять ближайших соседей глагольной фразы не установлено также очень похожи на их головную фразу, даже если они не так похожи, как ближайшие соседи роли. Второй токен во всех соседях — это сокращение n’t. Среди первых пяти фраз третьи слова также идентичны третьему слову в заглавной фразе, а первые слова либо идентичны, либо являются флективным вариантом (have). Только четвертое слово демонстрирует большее разнообразие: два причастия прошедшего времени, как в заглавной фразе, одно причастие настоящего времени и два вхождения прилагательного able. Среди пяти нижних фраз в списке три по-прежнему начинаются с has или have, но две являются модальными could и would; эти модальные окна функционально похожи на has. Третьи слова в шестой и седьмой фразах по-прежнему являются причастиями прошедшего времени, но становятся инфинитивом be в восьмой и девятой фразах и наречием в последней. Необработанные последовательные расстояния этих фразовых соседей значительно выше, чем у роли, но более похожи после нормализации по длине.

На первый взгляд, ближайшие соседи частично ответственные кажутся сравнимыми по качеству с соседями не установлено. Последовательные расстояния отражают это: после нормализации по длине они сопоставимы с расстояниями фраз в среднем диапазоне списка для не задано.

Подавляющее большинство фраз в таблице 3.17 состоят из наречия, за которым следует либо прилагательное, либо деепричастие, прошедшее или настоящее время. Единственным исключением является остается ответственным, которое начинается с глагола, а не с наречия; вероятно, оно было сочтено похожим, потому что второе слово ответственный совпадает с заглавной фразой, а также потому, что remains, как и многие наречия, часто стоит перед прилагательными.

По последовательному расстоянию ближайшие соседи наречной фразы ближе (таблица 3.18) даже больше похожи на головную фразу ближе, чем соседи роли относятся к их головной фразе. Однако качественно они кажутся менее похожими. Последовательные расстояния между всеми десятью фразами остаются низкими за счет совместного использования первого слова more. Однако вторые слова являются либо прилагательными, либо существительными; нет таких наречий, как близко.

Изучая профили closely и профили вторых слов соседей по фразе в списке, мы видим, что многие из общих контекстов могут вмещать как наречия, прилагательные, так и существительные; примеры включают a ___, the ___, из___, является___ и больше ___ до. Поскольку все три части речи могут встречаться в начале словосочетаний с существительными, все они также могут следовать за определителями, такими предлогами, как of, и связкой. Контекст more ___ to также может содержать слова из всех трех категорий. Короче говоря, последовательные расстояния, достигнутые соседями слова более близко, невелики, прежде всего потому, что их вторые слова имеют чрезвычайно общий контекст со словом близко.

За некоторыми исключениями, большинство ближайших соседей в США аналогичным образом состоят из предлога, определителя the и существительного в указанном порядке. Исключениями для первого слова являются и и это; ранее в модуле «Лексико-синтаксическое сходство» мы видели, что and и that иногда оцениваются как похожие на предлоги, потому что за ними часто следуют существительные. Все вторые слова соседей по фразе идентичны второму слову заглавной фразы the. Третье слово является существительным в восьми фразах в списке, шесть из которых имеют такое же слово, как и заглавная фраза, u.s. Два не существительных — это прилагательные японский и федеральный; сходство между прилагательными и существительными также наблюдалось ранее в предыдущем модуле, поскольку и существительные, и прилагательные следуют за определителями, а также за связками.

Несмотря на наличие нескольких сомнительных совпадений, нормализованные последовательные расстояния фраз в этом списке сопоставимы со списками для роли и более точно. Как и соседи более тесно, соседи в США по-прежнему регистрируют низкие последовательные расстояния, потому что они используют одинаковые слова с их головной фразой. Поскольку каждая позиция слова обрабатывается независимо при вычислении последовательного расстояния, это дает возможность другим словам во фразе отличаться больше, сохраняя при этом последовательное расстояние низким. Эта проблема может стать менее выраженной, когда процесс обучения станет итеративным, а расстояния Жаккара между словами смогут более точно отражать более глубокие лексико-синтаксические сходства. Однако также возможно, что это может быть неотъемлемым недостатком способа, которым в настоящее время вычисляется последовательное расстояние. Этот вопрос заслуживает дальнейшего изучения.

¹⁰ «^» Контексты подпоследовательности относятся к контекстам, созданным из подпоследовательностей более длинной повторяющейся последовательности. В этом случае летом является подпоследовательностью повторяющейся последовательности летом, что делает in ___ контекстом подпоследовательности в ___ из. Контексты подпоследовательностей учитываются так же, как и другие контексты при расчете расстояний Жаккара.

¹¹ ^ Существует также возможность, что две очень похожие фразы могут иметь бесконечное последовательное расстояние, потому что в одной из фраз есть слово, которое не имеет общего контекста с соответствующим словом в другой фразе, что может легко случиться. Это восходит к проблеме неадекватных контекстов, которая рассматривается в другом месте этой главы.

¹² ^ Хотя расстояния Жаккара, показанные в формуле, были округлены, результирующее последовательное расстояние 66,673 было рассчитано с неокругленными значениями.

Третий и последний модуль синтаксической модели градиента, условные вероятности, определяет прогностические отношения между парами элементов. Алгоритм обучения оценивает вероятность появления каждого элемента (который, опять же, является либо словом, либо фразой), найденного в обучающем корпусе, при условии появления второго элемента, встречающегося в том же предложении, в определенной позиции относительно первого. . Мы назовем первый элемент предсказанным элементом, а второй — заданным элементом. Любой элемент также может быть альтернативно заменен в условном событии его окрестностью, группой, состоящей из элементов, наиболее похожих на него.

4. Выводы

Эти условные вероятности показывают, насколько сильны синтаксические модели. В совокупности условные вероятности в предложении можно использовать для расчета предсказуемости всего предложения. Это приводит к идее вычисления оценки грамматичности на основе суммы всех условных вероятностей между всеми парами элементов. Таким образом, оценка грамматичности предложения становится мерой соответствия между предложением и синтаксической моделью, полученной в результате обучения. Предложение с высокой грамматической оценкой — это предложение, содержащее самые сильные синтаксические паттерны, известные модели. И наоборот, наиболее подходящей синтаксической моделью для набора грамматических предложений является та, которая присваивает им наивысшие грамматические оценки.

В этом разделе мы сначала разработаем точное определение условных событий, вероятности которых оцениваются в этом модуле. Затем мы разработаем оценку грамматики и опишем, как она рассчитывается. Наконец, чтобы проиллюстрировать применение этих концепций, мы рассчитаем условные вероятности и оценку грамматики для набора предложений, не входящих в обучающий корпус. Мы проследим, насколько хорошо показатели грамматичности могут различать грамматические и неграмматические предложения, а также сравним условные вероятности с обычным дискретным синтаксическим анализом.

3.3.1 Условные вероятности

Предсказуемость занимает центральное место в понятии грамматичности. В то время как язык содержит много непредсказуемого — именно в его непредсказуемости может быть выражена новая информация — он также содержит много предсказуемых паттернов. Предсказуемое позволяет слушателям расшифровать непредсказуемое и понять новую информацию, которую оно несет.

Каждая синтаксическая модель может быть смоделирована как условное событие, в котором появление одного элемента, предсказанного элемента, предсказывается появлением другого элемента в том же предложении, данного элемента. На прогнозируемый элемент вероятности также влияет его линейное положение относительно заданного. Эта информация может быть захвачена двумя переменными: direction, направлением прогнозируемого элемента относительно данного элемента, с left и right в качестве возможные значения; и расстояние — абсолютная разница между позициями слов предсказанного элемента и заданного элемента (например, соседние элементы разделены расстоянием, равным 1). Когда хотя бы один из двух элементов является фразой, используется слово в каждом элементе, ближайшее к другому элементу; например, две соседние фразы разделены расстоянием 1.

Таким образом, каждая из этих условных вероятностей принимает вид

где elemₚᵣₑ — прогнозируемый элемент, elemᵢᵥₑₙ — заданный элемент, dir — направление elemₚᵣₑ относительно elemᵢᵥₑₙ, а dist — расстояние между ними (задается абсолютной разницей между линейными позициями ближайших слов, которые они содержат). Например, из словосочетания солнце мы можем сформулировать условную вероятность P("солнце"|"the",right,1); это вероятность появления солнца при наличии the непосредственно справа от the. Пример условной вероятности с участием фраз можно проиллюстрировать предложением президент прибыл днем. Мы можем сформулировать условную вероятность между фразами президент и днем: если президент является предсказанным элементом, условная вероятность будет be P("президент"|"днем",left,2). Обратите внимание, что хотя в этой условной вероятности эти две фразы кажутся отдельными объектами, они все же демонстрируют градиентную вариацию своей фразовой связности, измеренную с помощью SPMI.

Помимо оценки условных вероятностей между отдельными словами или фразами, мы также можем оценить условные вероятности между их окрестностями или наборами, состоящими из элемента и некоторых его ближайших соседей. Условные вероятности с участием этих окрестностей можно записать как

где neigh(x) представляет все элементы в окрестности элемента x, включая сам x. Например, из словосочетания солнце мы можем сформулировать условную вероятность P(ржать("солнце")|ржать(" "), верно, 1). Это вероятность появления любого слова в окрестности sun при условии, что оно встречается сразу справа от любого слова в окрестности the.

Окрестности могут быть определены как минимум тремя способами: 1) путем установления жесткого порога; 2) путем присвоения разных весов разным соседям в соответствии с их расстоянием от головного элемента; или 3) оба. Теоретически более принципиальным методом является присвоение весов соседям; он не требует произвольной точки отсечки, не создает бинарного деления на соседей и не-соседей и признает разные степени сходства между соседями. Однако присвоение весов требует дополнительных вычислений и некоторых экспериментов, чтобы найти подходящую схему взвешивания. Поскольку разработка градиентной синтаксической модели все еще находится на ранних стадиях, мы сначала прибегнем к более простой стратегии установки жесткого порога: окрестности слов будут состоять из слов с расстоянием Жаккара 0,95 или ниже, а окрестности фраз будут состоять из слов с расстоянием Жаккара 0,95 или ниже. состоят из слов с последовательным расстоянием 30,0 или ниже. Использование весов может быть изучено в будущем.

3.3.2 Грамматические особенности

В сообществе естественного языка грамматика относится к степени, в которой высказывание соответствует нормам использования языка сообщества. Их ожидания формируются на протяжении всей их жизни, от воздействия языка вокруг них. В градиентной синтаксической модели нормы использования языка выводятся из обучающего корпуса путем измерения свойств, связанных с поведением слов и фраз языка: лексико-синтаксического сходства между словами и фразами, фразовой согласованности и условных вероятностей между словами. и фразы. Таким образом, грамматичность предложения (или любой последовательности слов) становится показателем того, насколько хорошо оно соответствует ожиданиям модели.

Это приводит к идее измерения грамматичности предложения с использованием показателя грамматичности, который измеряет общую силу синтаксических моделей в предложении. Чем больше синтаксических паттернов распознает модель и чем выше эти вероятности, тем больше можно сказать, что последовательность слов соответствует модели. Затем мы можем рассчитать показатель грамматичности предложения, суммируя все значимые условные вероятности в последовательности слов. Эта оценка грамматики аналогична использованию валового внутреннего продукта (ВВП) для измерения силы экономики страны: каждая условная вероятность между двумя элементами в последовательности слов соответствует покупке товара или услуги, произведенной в стране. Кроме того, поскольку более длинные последовательности слов содержат больше узнаваемых шаблонов, чем более короткие, показатели грамматики следует нормализовать по длине последовательности слов, так же как ВВП на душу населения — это ВВП, нормализованный по численности населения страны. Таким образом, формула для такой оценки грамматичности будет выглядеть следующим образом:

где x и y — это либо элементы, либо окрестности элементов, встречающихся в одном предложении, а length(W) количество слов в W.

Прежде чем эта формула будет готова к использованию, она требует трех корректировок. Во-первых, значимость высокой условной вероятности зависит от того, насколько часто встречается предсказываемый элемент сам по себе. Таким образом, условные вероятности x при суммировании должны быть нормированы на априорную вероятность x, P(x).«¹³» результирующее отношение P(x|y,…)/P(x) можно назвать условным отношением вероятностей . Обратите внимание, что это соотношение одинаково, когда предсказанный элемент и заданный элемент переключаются:

Во-вторых, только условные отношения вероятностей, которые указывают на значительную прогностическую связь между двумя элементами, должны быть включены в расчет показателя грамматичности. Среди пар смежных элементов будут включены только те, которые встречаются в одном предложении чаще, чем случайные; то есть их условные отношения вероятностей должны быть больше единицы. Среди пар несмежных элементов ограничение должно быть более строгим; без ограничений на их линейное положение пары элементов могут часто появляться в одном и том же предложении по семантическим причинам, а не по синтаксическим. Таким образом, оценка грамматичности будет включать только пары несмежных элементов, которые встречаются в одном и том же предложении чаще, чем случайно, на каждом расстоянии меньшем, чем их расстояние в текущем предложении. Например, если пара элементов имеет отношение условной вероятности больше единицы при расстоянии друг от друга в три, то их отношения также должны быть больше единицы при расстоянии между ними в два, а также при соседстве друг с другом. разное.

Наконец, оценка грамматичности должна использовать логарифмы условных отношений вероятностей. Это связано с тем, что на практике отношения могут варьироваться на много порядков; например, наибольшее соотношение между парой слов равно 2¹⁸·⁸3³³, а наименьшее значение равно 2⁻⁸·⁷¹¹. Только взяв логарифм отношения, мы можем не допустить, чтобы пары элементов с очень сильными значениями подавляли вклад других пар элементов в предложение. Следуя прецеденту, который мы установили с определением SPMI, мы будем использовать логарифм по основанию два.

Теперь мы готовы определить оценку грамматичности:

Оценка грамматики –

Показатель грамматичности последовательности слов W по отношению к грамматической модели M или G(W|M), задается

где x и y — непересекающиеся элементы (или окрестности этих элементов) в W, dir(x,y,W) — это направление положения x относительно yв W, dist(x,y,W) — абсолютная разница в слове позиция между x и yв W, длина(W) — это число слов в W, а S — это множество, содержащее все пары (x,y), такие что

Чтобы проиллюстрировать расчет условного отношения вероятностей, P(x|y,dir(x,y,W),расстояние(x,y,W))/P(x), рассмотрим пару слов, взятых из одного из предложений обучающего корпуса: тех и кто , в предложении не все написавшие выступают против изменений. Чтобы вычислить P("те"|"кто",left,1)/P("те"), нам нужны четыре числа: необработанная частота тех в корпусе, n("те"), то есть 567; частота слова who (1580), частота биграммы тех, кто (61) и общее количество слов в корпусе (933 886). Исходя из этого, мы можем рассчитать соотношение:

условные отношения вероятностей соседних элементов должны быть больше единицы,
т.е. P(x|y,каталог(x,y ,W),расстояние(x,y,W))/P (x) › 1, если dist(x,y,W) = 1;
условные отношения вероятностей несмежных элементов должны превышать единицу для всех расстояний, меньших и включая dist(x,y,W),
т.е. P(x|y,каталог(x,y ,W),расстояние(x,y,W))/P (x) › 1,
∀ расстояние(x,y,w) ст расстояние(x,y,w) ≤ расстояние(x ,y,W), если расст(x,y,В) = 1
Таблица 2.1. Объем, название и контекст каждой составляющей в предложении Фабрика заработной платы упала в сентябре (взято из Klein and Manning 2002:129)
Таблица 2.2. Эффективность различных базовых показателей и систем , в различных частях корпуса WSJ (Кляйн и Мэннинг, 2004 г., Бод, 2009 г., Спитковский и др., 2013 г.)
Таблица 3.1. Наборы контекстов для слов заменить, влиять и school из Penn Treebank-3
Таблица 3.2. Общие контексты для replace, effect и school
Таблица 3.3. Расстояния Жаккара среди replace, affect и school
Таблица 3.4. Расстояния Jaccard и теги POS для ближайших десяти соседей каждого из десяти слова, выбранные для оценки
Таблица 3.5: Информация о частоте и размерах контекста десяти слов, выбранных для оценки, в порядке от наиболее часто встречающихся к наименее часто встречающимся
Таблица 3.6: Повторяющиеся последовательности длиной 2–4 с самыми высокими значениями SPMI в Penn Treebank-3
Таблица 3.7: Фразы в предложении , «Производитель роскошных автомобилей в прошлом году продал 1214 автомобилей в США»
Таблица 3.8. 10 фразовых соседей с наименьшим расстоянием по Жаккару до именной фразы«лето»
Таблица 3.9: 10 фразовых соседей с наименьшими расстояниями по Жаккару до инфинитивной глагольной фразы «to find»
Таблица 3.10: 10 фразовых соседей с наименьшими расстояниями по Жаккару до прилагательная фраза «более сложная»
Таблица 3.11: Частота, размер набора контекстов и максимальное количество возможных совпадений для пяти фраз, выбранных для оценки
Таблица 3.12: 10 фразовых соседей с наименьшие дистанции Жаккара до наречной фразы/прилагательной фразы «очень много»
Таблица 3.13: 10 фразовых соседей с наименьшими дистанциями Жаккара до предложной фразы «in the us»< br />Таблица 3.14: 10 фразовых соседей с наименьшими расстояниями Жаккара до предложной фразы «in the us» без избыточных контекстов
Таблица 3.15: 10 ph фразовые соседи с наименьшими последовательными расстояниями до именной фразы «роль»
Таблица 3.16. 10 фразовых соседей с наименьшими последовательными расстояниями до глагольной фразы set»
Таблица 3.17: 10 фразовых соседей с наименьшими последовательными расстояниями до прилагательной фразы «частично ответственный»
Таблица 3.18: 10 фразовых соседей с наименьшими последовательными расстояниями расстояния до наречной фразы «ближе»
Таблица 3. 19: 10 фразовых соседей с наименьшими последовательными расстояниями до предложной фразы «in the us»
Таблица 3.20: 20 предложений, использованных при оценке условных вероятностей и показателей грамматичности
Таблица 3.21: Фразы в предложении «Они думали, что этого никогда не произойдет».
Таблица 3.22: Отношения условных вероятностей между всеми парами элементов или их соседями в предложении 1
Таблица 3.23 : Оценки грамматики 20 предложений в тесте.

Таким образом, те встречается непосредственно перед кто в 63,589 раза чаще, чем в целом. Логарифм отношения по основанию два равен 5,991.

При расчете оценок грамматики используется большая часть (хотя и не вся) информации градиентной синтаксической модели: лексико-синтаксические сходства между парами элементов фиксируются путем включения соседей; фразы идентифицируются путем сопоставления их с повторяющимися последовательностями в обучающем корпусе; и, конечно же, условные вероятности. Таким образом, в определенной степени показатель грамматичности можно считать оценкой предложения с помощью Градиентной синтаксической модели в целом.

Одной из немногих частей информации из модели, которая не используется напрямую при расчете баллов, является SPMI, измерение фразовой связности. Однако мы можем показать, что информация, выраженная SPMI, на самом деле косвенно передается условными вероятностями, по крайней мере, для фраз длины два. Для этого сравним формулу условного отношения вероятностей между двумя соседними элементами с формулой SPMI для фраз длины два.

С

учитывая фразу из двух слов w₁w₂, мы имеем:

Это показывает, что SPMI для фраз, состоящих из двух слов, фактически равен условному отношению вероятностей между этими двумя словами.

В следующем разделе мы оценим, насколько хорошо показатели грамматики согласуются с грамматикой общеупотребительного языка.

¹³ «^» априорная вероятность x — это вероятность x до того, как станет известна какая-либо другая информация о нем .

3.3.3 Оценка

Чтобы увидеть, насколько хорошо оценки грамматики соответствуют грамматике общеупотребительного языка, мы вычислим оценки грамматики ряда грамматических предложений и сравним их с оценками грамматики тех же предложений после того, как их слова были случайно переставлены. Если оценки грамматики отражают ожидания носителей английского языка, они должны заметно отличаться в грамматических предложениях по сравнению с неграмматическими.

Тестовые предложения взяты из New York Times. Предложения выбираются достаточно короткими, не более 11 слов. Это необходимо как для обеспечения того, чтобы результаты не были слишком сложными для интерпретации, так и для минимизации времени обработки, необходимого для их получения. По тем же причинам количество тестовых предложений будет сохранено на уровне 20 (10 грамматических и 10 неграмматических). Кроме того, поскольку синтаксическая модель градиента не может вывести информацию об элементах, не входящих в словарь, все слова в тестовых предложениях должны не только появляться в обучающем корпусе, но и уже иметь контекстные наборы.

20 тестовых предложений (без знаков препинания)

Получение оценки грамматичности предложения состоит из 1) определения фраз в предложении; 2) нахождение окрестностей всех своих слов и словосочетаний; и 3) вычисление условных отношений вероятностей между всеми парами слов, фраз, соседями слов и соседями фраз в предложении, всего десять типов пар. Мы можем проиллюстрировать весь этот процесс с помощью первого тестового предложения, предложения 1 (они думали, что этого никогда не произойдет). Фразы — это просто повторяющиеся последовательности в предложении. Таблица 3.21 представляет собой список фраз в предложении 1, а также индексы позиции слова, их частоты в обучающем корпусе и их SPMI:

В следующих таблицах приведены зарегистрированные условные отношения вероятностей между парами элементов или окрестностей элементов в предложении 1, округленные до тысячных. Показаны только соотношения, отвечающие условиям включения в расчет балла грамматичности. Пунктирные линии (—) обозначают перекрывающиеся или идентичные элементы. Пороговыми значениями для соседей являются максимальное расстояние Жаккара 0,95 для слов и максимальное последовательное расстояние 30,0 для фраз.

Суммируя все зарегистрированные отношения условной вероятности и разделив сумму на количество слов в предложении (6), мы получаем оценку грамматичности 32,147.

Применение того же анализа ко всем десяти парам предложений дает следующие оценки грамматики для всех 20 тестовых предложений:

Как видно из Таблицы 3.23 и Рисунка 3.3, для всех десяти пар тестовых предложений показатели грамматичности грамматических предложений значительно выше, чем у соответствующих им неграмматических предложений: от 2,05 раз выше в паре 7 (предложения 13 и 14) до 8,48. раз больше в паре 8 (предложения 15 и 16). Самый низкий показатель грамматичности среди грамматических предложений по-прежнему выше, чем самый высокий показатель грамматичности среди неграмматических предложений.

Несмотря на то, что нормализация длины уже включена в расчет оценки грамматичности, все еще существует заметное влияние длины на оценки грамматики, особенно для грамматических предложений. В идеале, если бы длина вообще не влияла, корреляция была бы нулевой. Здесь корреляция составляет 0,375 для всех предложений, 0,290 для грамматических предложений и 0,099 для неграмматических предложений. Если оценки грамматики должны быть сопоставимы для предложений различной длины, может потребоваться корректировка их формулы. Это должно быть исследовано более тщательно в будущем.

Хотя показатели грамматики дают краткую оценку грамматичности предложения, также полезно иметь общее представление о его грамматических моделях. Это может быть обеспечено визуальным представлением грамматических паттернов, которое в некотором роде сравнимо с визуальным представлением анализа фразовой структуры и зависимостей.

Для упрощения сравнения с дискретным анализом градиентный анализ должен представлять только соотношения между парами окрестностей. Это связано с тем, что обычно дискретный синтаксический анализ рассматривает лексические элементы только как представители их категорий, а не как отдельные элементы. Существительное словосочетание, такое как the tree, будет помечено как NP в дереве фразовой структуры, а существительное tree будет помечено как начало the, не принимая во внимание какие-либо особенности, которые может иметь эта конкретная фраза. Такой подход сосредотачивается на наиболее общем и наиболее важном для описательной лингвистики синтаксических закономерностях языка. Однако важно иметь в виду, что хотя визуальное представление градиента отображает только некоторые из условных отношений вероятностей, те, которые не показаны, тем не менее, по-прежнему являются важными частями полного синтаксического анализа в синтаксической модели градиента.

Визуальное представление для анализа предложения 1 выглядит так:

Вокруг всех фраз нарисованы прямоугольные рамки. Линии используются для представления всех условных отношений вероятностей между парами окрестностей (т. е. двумя окрестностями слов, двумя окрестностями фраз или соседством слова с соседством фразы), которые включены в подсчет баллов по грамматике. Строки над предложением представляют соотношения между соседствами слов, а строки под предложением представляют соотношения, включающие соседства фраз. Яркость линии пропорциональна логарифму отношения по основанию 2, максимум до 5,0. Поскольку условные отношения вероятностей одинаковы, даже если предсказанный элемент и данный элемент переставлены местами, линии, представляющие эти отношения, ненаправлены.

Следует ожидать, что градиентный анализ оцениваемых предложений будет сильно отличаться от их дискретного анализа по нескольким причинам. Во-первых, фразы и условные вероятности в градиентном анализе существенно отличаются от структур фраз и отношений зависимости. В то время как фразы в обычных структурах фраз являются фразовыми категориями, фразы в текущей модели градиента представляют собой повторяющиеся последовательности. И в то время как отношения зависимости в обычных графах зависимостей используют заглавные слова для представления более крупных фраз, градиентный анализ позволяет фразам просто представлять себя. Во-вторых, как обсуждалось ранее, текущая реализация ограничена как относительно небольшим обучающим корпусом, так и выполнением только одной обучающей итерации. Более совершенная версия модели может более точно оценивать сильные стороны синтаксических паттернов, производя градиентный анализ, который более точно соответствует обычным ожиданиям. Наконец, в то время как дискретный анализ, как правило, представляет только самые сильные взаимосвязи, градиентный анализ включает все условные отношения вероятностей больше 1 (или больше 0 при регистрации). Это часто приводит к визуальным представлениям, которые кажутся чрезмерно сложными. Однако необходимо помнить, что Градиентная синтаксическая модель предназначена не для людей, а для машин, и не для простоты, а для детализации и точности. Вместо того, чтобы стремиться к аккуратности, стратегия градиентной синтаксической модели состоит в том, чтобы включать как сильные, так и слабые синтаксические шаблоны, а также позволять естественным образом проявляться более сильным.

Несмотря на эти значительные расхождения, полезно сравнить градиентный анализ десяти грамматических предложений в этой оценке с их соответствующими дискретными анализами. Эти дискретные анализы будут состоять как из структур фраз, так и из отношений зависимости, которые для простоты сравнения будут объединены в единое визуальное представление. Фразы не маркируются фразовыми категориями, а отношения зависимости не маркируются для направления, поскольку фразы в градиентном анализе также не имеют меток, а линии, представляющие условные отношения вероятностей, ненаправлены. В остальном они представляют ту же информацию, что и деревья структуры фраз и графики зависимостей. Например, ниже приводится дискретный анализ предложения 1:

Фразы отмечены прямоугольными рамками. Поскольку зависимости находятся между парами слов, они отмечены над предложением ненаправленными линиями.

Теперь мы можем изучить визуальные представления анализа 20 выбранных предложений (с последующим обсуждением):

Пара 1

Предложение 1

Градиентный анализ

Дискретный анализ

Предложение 2

Градиентный анализ

Пара 2

Предложение 3

Градиентный анализ

Дискретный анализ

Предложение 4

Градиентный анализ

Пара 3

Предложение 5

Градиентный анализ

Дискретный анализ

Предложение 6

Градиентный анализ

Пара 4

Предложение 7

Градиентный анализ

Дискретный анализ

Предложение 8

Градиентный анализ

Пара 5

Предложение 9

Градиентный анализ

Дискретный анализ

Предложение 10

Градиентный анализ

Пара 6

Предложение 11

Градиентный анализ

Дискретный анализ

Предложение 12

Градиентный анализ

Пара 7

Предложение 13

Градиентный анализ

Дискретный анализ

Предложение 14

Градиентный анализ

Пара 8

Предложение 15

Градиентный анализ

Дискретный анализ

Предложение 16

Градиентный анализ

Пара 9

Предложение 17

Градиентный анализ

Дискретный анализ

Предложение 18

Градиентный анализ

Пара 10

Предложение 19

Градиентный анализ

Дискретный анализ

Предложение 20

Как и ожидалось, градиентный анализ грамматических предложений сильно отличается от их дискретных аналогов. Тем не менее, мы все еще можем сделать ряд качественных наблюдений высокого уровня. Сразу бросается в глаза заметно большая плотность строк и рамок в грамматических предложениях по сравнению с неграмматическими. Таким образом, эти визуальные представления способны показать контраст между плотностью синтаксических паттернов в разных частях предложения. Например, несмотря на то, что это предложение без грамматики, предложение 8 содержит грамматическую последовательность во второй половине, но сдвиг здесь очевиден. Модель выявляет значительно больше паттернов в этой грамматической части предложения, чем в предыдущей части, выходит кажется, что это а, которая более явно не грамматична.

Второе наблюдение заключается в том, что большинство соотношений в градиентном анализе находятся между соседними элементами, будь то соседние слова, слова, прилегающие к фразам, или смежные фразы. Соотношения между элементами с расстоянием два или более имеют тенденцию быть ниже (представлены более слабыми линиями) по сравнению с отношениями между соседними элементами. Это преобладание локальных закономерностей возникает естественным образом, несмотря на то, что между всеми парами элементов в предложении вычислялись условные отношения вероятностей.

Эти анализы также выявляют недостатки текущей версии модели. Например, несколько грамматических последовательностей должны содержать больше распознаваемых шаблонов, чем в настоящее время. Например, в предложении 9 этот кошмар совершенно голый; оно не помечено как фраза, и нет никаких условных вероятностей, связанных с окрестностями составляющих его слов. Возможно, в некоторой степени ожидается, что он не будет помечен как фраза, поскольку многие фразы не являются частыми и, следовательно, не будут повторяться в учебном корпусе. Однако более удивительно, что соседство ни одного слова не включено ни в какие условные вероятности. Основная причина этого заключается в том, что этот имеет только одного соседа (последний), с которым он имеет расстояние Жаккара меньше или равное пороговому значению 0,95, оставляя его только с одно слово по соседству. Это подтверждает наши более ранние подозрения, что использование таких жестких порогов является грубым методом определения окрестностей.

Еще одна область для улучшения градиентного анализа, которая стала очевидной при сравнении с дискретным анализом, — это идентификация фраз. В настоящее время фразы в градиентном анализе представляют собой просто повторяющиеся последовательности из обучающего корпуса; модель не использовала измерения сходства между словами или фразами для выявления частых фразовых соседств. Именно эти частые фразовые соседства могут быть градиентными эквивалентами фразовых категорий (например, словосочетаний с существительными, словосочетаний с глаголами, словосочетаний с прилагательными), которые — отбросив на время их недостатки как категории — раскрывают глубокие синтаксические паттерны, которые повторяющиеся последовательности просто не могут обнаружить.

Несмотря на свою сложность, визуальные представления градиентного анализа позволяют людям быстро идентифицировать синтаксические модели в предложениях. Кроме того, по сравнению с более простыми визуальными представлениями дискретного анализа, они имеют то преимущество, что показывают точно определенные закономерности. Наконец, следует помнить, что синтаксическая модель градиента не предназначена в первую очередь для восприятия человеком. Сложность анализа модели не должна создавать проблем для компьютерных приложений, для которых она в конечном счете предназначена.

Синтаксическая модель градиента представляет собой альтернативу дискретным синтаксическим моделям, которые до сих пор широко используются в алгоритмах неконтролируемого синтаксического анализа. Эта диссертация закладывает теоретическую основу для модели, преобразуя дискретные концепции высокого уровня частей речи, фраз, зависимостей и грамматики в точно определенные градиентные концепции. Он также реализует эту модель вычислительно, обучает ее на текстовом корпусе, представляет результаты и оценивает их как качественно, так и количественно.

4.1 Взносы

В этой заключительной главе я сначала подытожу основные новшества модели, а затем обсужу возможные направления ее развития в будущем.

Градиентная синтаксическая модель — многообещающая, но конкретная альтернатива традиционным дискретным синтаксическим моделям, которые до сих пор широко распространены в неконтролируемом синтаксическом анализе и в лингвистике. Для неконтролируемого синтаксического анализа модель предлагает обширные количественные данные, которые описывают синтаксические шаблоны во всей их градиентной сложности с использованием точных определений. Для лингвистики модель обеспечивает строгую теоретическую основу, которая позволяет проводить количественные наблюдения за синтаксисом за пределами подсчета частот, где можно проверить утверждения о синтаксических явлениях.

4.2 Путь вперед

Модель имеет три основных преимущества перед дискретными моделями. Во-первых, он способен улавливать вариации, которые не могут уловить дискретные модели: различия в степени лексико-синтаксического сходства между словами в одной и той же части речи и сходства между словами в разных частях речи; различия в связности фраз; и различия в силе предсказания между парами элементов в предложении. Во-вторых, концепции, используемые в градиентной синтаксической модели, проще и точнее определены, чем в дискретных моделях. Это возможно именно благодаря градиенту, допускаемому моделью. В-третьих, в то время как части речи, группы и зависимости обычно изучаются по отдельности, градиентная синтаксическая модель изучает их вместе, признавая, насколько тесно они переплетены друг с другом. Измерения лексико-синтаксического сходства используются для сравнения фраз, а оценки сходства как между словами, так и между фразами используются для формирования соседств, которые затем включаются в условные вероятности.

Каждый модуль в модели переделывает другое понятие в дискретных синтаксических моделях. Модуль лексико-синтаксического подобия заменяет части речи одной метрикой, которая измеряет степень лексико-синтаксического сходства между парами слов, обеспечивая более комплексное представление лексико-синтаксического поведения. Метод извлечения контекстов из повторяющихся последовательностей является еще одним нововведением, отличающимся от прошлых алгоритмов индукции POS, где контексты исходят из фиксированного числа соседних слов по обе стороны от целевого слова. Результаты здесь обнадеживают: многие из ближайших соседей оцениваемых слов похожи по лексико-синтаксическому поведению, часто с соответствующими тегами POS. Точность k показывает, что большинство соседей с совпадающими POS-тегами ранжируются среди наиболее похожих.

Модуль «Фразы» заменяет составляющие и диагностические тесты на выборку фразами, которые, по крайней мере на данном этапе, представляют собой просто повторяющиеся последовательности в обучающем корпусе; фразы, которые охватывают те же общие синтаксические модели, что и составные части, будут обсуждаться в рамках будущей работы в следующем разделе. Между тем повторяющиеся последовательности по-прежнему составляют важную часть всей синтаксической картины. Модель различает эти повторяющиеся последовательности по степени их фразовой согласованности, измеряемой новой метрикой, последовательной точечной взаимной информацией (SPMI). SPMI вычисляет, во сколько раз чаще встречается фраза по сравнению с частотой, которую она имела бы, если бы все входящие в нее слова встречались независимо друг от друга. Кроме того, модуль описывает два метода фразового сравнения, контекстуальное сравнение и внутреннее сравнение. При контекстном сравнении наборы контекстов двух фраз сравниваются так же, как сравниваются пары слов в модуле лексико-синтаксического сходства. При внутреннем сравнении вычисляется последовательное расстояние между двумя фразами из расстояний Жаккара между их составными словами в каждой линейной позиции. Несмотря на то, что они оценивались только в небольшом масштабе, оба метода показывают обнадеживающие результаты, а внутренние сравнения в целом работают лучше. Основным препятствием, по-видимому, является разреженность данных; Стратегии решения этой проблемы будут обсуждаться в следующем разделе.

Наконец, последний модуль преобразует отношения зависимости в условные вероятности между парами элементов или их окрестностями, встречающимися в одном предложении. Эти вероятности обусловлены не только появлением данного элемента или его окрестности, но и положением прогнозируемого элемента относительно него. Затем эти вероятности используются для расчета показателей грамматики предложений. Эти оценки грамматики позволяют четко различать грамматические и неграмматические предложения: оценки десяти выбранных грамматических предложений от двух до более чем восьми раз выше, чем оценки неграмматически зашифрованных версий этих предложений. Кроме того, условные вероятности также можно использовать для построения визуального представления грамматических паттернов в предложении, тем самым выявляя, какие части предложения содержат большую плотность грамматических паттернов, чем другие. Таким образом, условные вероятности позволяют выразить более ясное и сложное понятие грамматичности, чем это было возможно раньше.

Градиентная синтаксическая модель предлагает многообещающую отправную точку для нового типа синтаксической модели и новый подход к проблеме неконтролируемого синтаксического анализа. Теперь, когда базовая структура модели установлена, ее можно расширить в сторону большей функциональности.

Текущая версия синтаксической модели градиента считается базовой, но ни в коем случае не полной. Существует множество возможных расширений, которые могут существенно улучшить его, некоторые из которых требуют небольших усилий по сравнению с их потенциальной отдачей. Наиболее важными улучшениями являются: 1) устранение жестких порогов в определении районов; 2) фразы, фиксирующие общие синтаксические закономерности; 3) использование большего корпуса; 4) итерация процесса обучения; 5) вывод о поведении новых элементов; и 6) распространение анализа на морфологические и фонологические модели.

использованная литература

Первые три из этих улучшений относятся к конкретным частям модели. Одним из них является использование жестких порогов для определения окрестностей слов и фраз в модуле «Условные вероятности». Пороговое значение 0,95 для расстояний Жаккара между словами и пороговое значение 30,0 для последовательных расстояний между фразами были тщательно выбраны после изучения данных, но, тем не менее, являются произвольными и теоретически не мотивированными. Следовательно, некоторые районы могут быть слишком большими или, что более проблематично, слишком маленькими (как видно из предложения 9 на рис. 3.6). Наиболее тщательное решение, возможно, состоит в том, чтобы исключить пороги и вместо этого указать принадлежность каждого соседа к соседству с использованием числовых весов. Эти веса учитывали бы как необработанное расстояние между соседом и заглавным словом или фразой, так и рейтинг соседа среди всех соседей. Как обсуждалось ранее, этот метод требует больших вычислительных ресурсов, но, возможно, он того стоит.

Еще одна конкретная область улучшений — выявление частых фразовых соседств в модуле «Фразы». Хотя в модели должны быть сохранены повторяющиеся последовательности, также необходимо определить наиболее часто встречающиеся в языке фразовые конструкции. Модель уже может идентифицировать фразовые соседства для определенных фраз; теперь это нужно сделать только для всех фраз, а затем определить, какие фразовые соседства являются наиболее распространенными в обучающем корпусе. Однако задача усложняется целью определения окрестностей с использованием весов вместо жестких порогов. Чтобы найти правильный способ определения наиболее распространенных фразовых соседств, потребуются некоторые размышления и некоторые эксперименты.

Более общее улучшение и, возможно, самое простое улучшение с наибольшим потенциальным приростом производительности, скорее всего, произойдет при обучении модели с использованием значительно большего корпуса. Во время прототипирования модели более удобным был меньший корпус, поэтому был выбран относительно небольшой Penn Treebank, содержащий чуть менее 1 миллиона слов; напротив, пятое издание Gigaword на английском языке содержит более 4 миллиардов слов. Теперь, когда каркас модели создан, мы можем лучше оценить весь потенциал модели, обучая ее на более крупных корпусах. Процесс обучения предъявляет существенные требования как к обработке данных, так и к памяти; тем не менее, учитывая, что стоимость в настоящее время очень низкая, и с некоторой дальнейшей оптимизацией тренировочного процесса, это не должно быть сложной проблемой.

Более существенным расширением является итерация процесса обучения. Пока реализована только одна итерация обучения. В начале этой первой итерации недоступна никакая информация, кроме неаннотированного обучающего корпуса. Однако во второй итерации модель может использовать шаблоны, извлеченные из первой: фразы, лексико-синтаксические сходства между словами и фразами, соседство слов и фраз и условные вероятности. Эта информация может, например, позволить модели обобщать похожие контексты, тем самым делая их более эффективными при идентификации похожих слов и фраз.

Еще одним расширением модели с потенциально большим выигрышем является возможность делать выводы о поведении слов или фраз, для которых у модели нет информации. Эта функциональность имеет решающее значение для обработки моделью новых тестовых предложений, а также низкочастотных элементов в корпусе. Этот вывод возможен только после первой итерации обучения, после того как наборы контекстов были построены для слов и фраз, которые встречаются в повторяющихся последовательностях. В последующих итерациях контексты невидимых элементов могут сопоставляться либо с контекстом, идентифицированным в первой итерации, либо с обобщенным контекстом, выведенным ранее в последующей итерации.

Наконец, последним крупным расширением является построение морфологической и фонетико-фонологической модели. Пока что синтаксическая модель градиента фиксирует только шаблоны среди слов. Хотя этого может быть достаточно для более аналитических языков, этого, скорее всего, недостаточно для морфологически более богатых языков. Поскольку слова в таких языках могут иметь много морфологических форм, средняя частотность словоформы будет довольно низкой. Таким образом, представляется необходимой способность делать выводы о морфологических отношениях. Кроме того, с включением морфологии сразу следует необходимость моделирования фонологических паттернов, поскольку многие морфологические паттерны запускают фонологические вариации. Учитывая это, может быть возможное преимущество в представлении входного текста в виде фонологической транскрипции, а не в традиционной орфографии языка. Возможность вывода морфологических отношений в модели также повышает возможность устранения границ слов. В конечном счете, в естественном языке нет словесных границ, и поэтому модель, не опирающаяся на них, будет более свободной от произвольных аналитических решений.

Растущее распространение вычислительного анализа в лингвистике поставило лингвистику на порог смены парадигмы. В конце этого сдвига сложности естественного языка — не только его синтаксиса, но также его морфологии и фонологии — больше не будут упрощаться до дискретных понятий, чтобы соответствовать нашему ограниченному человеческому пониманию, но будут пользоваться требуемым уважением. , за счет использования точных количественных моделей. Неконтролируемые синтаксические анализаторы, которые до сих пор заимствовали дискретные синтаксические модели из лингвистики, теперь дают толчок к тому, чтобы помочь лингвистам выйти за их пределы. Я горячо надеюсь, что работа, описанная в этой диссертации, может способствовать этому прогрессу.

Бек, Д. (2002). Типология частей речевых систем: маркировка прилагательных. Нью-Йорк: Routledge.

Слова, определяющие линейное положение друг друга, связаны синтаксической зависимостью.

Берг-Киркпатрик, Т., Бушар-Кот, А., ДеНеро, Дж., и Кляйн, Д. (2010). Безболезненное обучение без присмотра с функциями. Материалы NAACL 2010 (стр. 582–590). Лос-Анджелес.

Биманн, К. (2006). Неконтролируемая маркировка частей речи с использованием эффективной кластеризации графов. Материалы COLING ACL 2006 (стр. 7–12). Морристаун, Нью-Джерси: Ассоциация компьютерной лингвистики.

Блансом, П. (2004, 19 августа). Скрытые марковские модели. Получено с «http://digital.cs.usu.edu/~cyan/CS7960/hmm-tutorial.pdf»

Бод, Р. (2009). От образца к грамматике: вероятностная модель изучения языка, основанная на аналогиях. Когнитивные науки, 752–793.

Браун, П.Ф., Делла Пьетра, В.Дж., де Соуза, П.В., Лай, Дж.К., и Мерсер, Р.Л. (1990). N-граммные модели естественного языка на основе классов. Proceedings of the IBM Natural Language ITL (стр. 283–298). Париж.

Байби, Дж. (2010). Язык, использование и познание. Кембридж: Издательство Кембриджского университета.

Христодулопулос, К., Голдуотер, С., и Стидман, М. (2010). Два десятилетия неконтролируемой индукции POS: как далеко мы продвинулись? Материалы EMNLP 2010 (стр. 575–584). Ассоциация компьютерной лингвистики.

Кларк, А. (2000). Создание синтаксических категорий путем кластеризации распределения контекста. Протоколы CoNLL-LLL, (стр. 91–94).

Дирвестер, С., Думайс, С.Т., Фернас, Г.В., Ландауэр, Т.К., и Харшман, Р. (1990). Индексирование с помощью скрытого семантического анализа. Журнал Американского информационного общества, 391–407.

До, CB, и Batzoglou, S. (2008, август). Каков алгоритм максимизации ожидания? Nature Biotechnology, 26(8), 897–899.

Финч, С., и Чейтер, Н. (1992). Начальная загрузка синтаксических категорий с использованием статистических методов. В книге У. Дэлеманса и Д. Пауэрса, Предыстория и эксперименты в машинном обучении естественного языка (стр. 229–236). Тилбург: ИТК.

Голдуотер, С., и Гриффитс, Т. (2007). Полностью байесовский подход к неконтролируемой маркировке частей речи. Протоколы ACL 2007 (стр. 744–751). Прага, Чешская Республика.

Граса, Дж., Ганчев, К., Таскар, Б., и Перейра, Ф. (2009). Апостериорная и разреженность параметров в моделях со скрытыми переменными. В книге Y. Bengio, D. Schuurmans, JD Lafferty, CK Williams, & A. Culotta (Ed.), Proceedings of Advances in Neural Information Processing Systems 22 (NIPS 2009), (стр. 664– 672).

Хагиги, А., и Кляйн, Д. (2006). Обучение на основе прототипов для моделей последовательностей. Материалы NAACL 2006 (стр. 320–327). Морристаун, Нью-Джерси.

Хэй, Дж. (2001). Лексическая частотность в морфологии: все ли относительно? Лингвистика, 39, 1041–1070.

Джонсон, М. (2007). Почему EM не находит хороших POS-тегеров HMM? Материалы EMNLP-CoNLL 2007 (стр. 296–305).

Кляйн, Д., и Мэннинг, CD (2004). Основанная на корпусе индукция синтаксической структуры: модели зависимости и составности. Протоколы ACL 2004.

Кляйн, Д., и Мэннинг, CD (2005). Индукция грамматики естественного языка с генеративной моделью составного контекста. Распознавание образов, 38(9), 1407–1419.

Кляйн, Дэн; Мэннинг, Кристофер Д. (2002). Генеративная модель контекста составляющих для улучшенной индукции грамматики. Протоколы ACL 2002 (стр. 128–135). Филадельфия.

Матилал, Б.К. (1990). Слово и мир: вклад Индии в изучение языка Oxford University Press.

Мельчук, И. А. (1988). Синтаксис зависимостей: теория и практика. Олбани, Нью-Йорк: State University of New York Press.

Мериальдо, Б. (1994, июнь). Тегирование английского текста с помощью вероятностного метода. Компьютерная лингвистика, 20(2), 155–171.

Рэдфорд, А. (1988). Трансформационная грамматика: первый курс. Кембридж: Издательство Кембриджского университета.

Редингтон, М., Чейтер, Н., и Ф.С. (1998). Информация о распространении: мощный ключ для получения синтаксических категорий. Когнитивная наука, 22(4), 425–469.

Розенберг, А., и Хиршберг, Дж. (2007). V-мера: условная мера внешней оценки кластера на основе энтропии. Материалы EMNLP-CoNLL 2007, (стр. 410–420).

Шютце, Х. (1995). Распределение тегов частей речи. Материалы EACL 1995 (стр. 141–148). Морган Кауфман Паблишерс Инк.

Шютце, Х., и Уолш, М. (2008). Теоретико-графовая модель лексико-синтаксического усвоения. Материалы EMNLP 2008, (стр. 917–926). Гонолулу.

Сеппянен, А., Ронвен, Б., и Тротта, Дж. (1994). О так называемых сложных предлогах. Studia Anglia Posnaniensia, 29, 3–29.

Спитковский В.И., Альшави Х. и Джурафски Д. (2010). От детских шагов до Leapfrog: как «меньше значит больше» в анализе зависимостей без присмотра. Материалы NAACL 2010 (стр. 751–759).

Спитковский В.И., Альшави Х. и Джурафски Д. (2011). Пунктуация: заострение внимания на анализе зависимостей без присмотра. Протоколы CoNLL (стр. 19–28).

Спитковский В.И., Альшави Х. и Джурафски Д. (2012). Начальная загрузка индукторов грамматики зависимостей из неполных фрагментов предложений с помощью строгих моделей. Материалы ICGI 2012.

Спитковский В.И., Альшави Х. и Джурафски Д. (2013). Выход из локальных оптимумов с помощью преобразований подсчета и рекомбинации моделей: исследование индукции грамматики. Материалы EMNLP 2013 (стр. 1983–1995).

Спитковский В.И., Альшави Х., Чанг А.Х. и Джурафски Д. (2011). Неконтролируемый анализ зависимостей без тегов Gold Part-of-Speech. Материалы EMNLP 2011 (стр. 1281–1290).

Витгенштейн, Л. (1953). Философские исследования. Нью-Йорк: Macmillan.

На пути к градиентной синтаксической модели для неконтролируемого синтаксического анализа

Проект докторской диссертации

Абстрактный

Предисловие

Оглавление

Список таблиц

список рисунков

Сокращения: набор тегов Penn Treebank

1. Введение

1.1 Подход, основанный на использовании

1.2 Цель и объем

1.3 План диссертации

2 Текущие модели в неконтролируемом синтаксическом анализе

2.1 Части речи

2.2 Синтаксические отношения

2.3 Переосмысление дискретных синтаксических моделей

3. Градиентная синтаксическая модель

3.1 Лексико-синтаксическое поведение

3.2 Фразы

3.3 Условные вероятности

4. Выводы

4.1 Взносы

4.2 Путь вперед

использованная литература

Слова, определяющие линейное положение друг друга, связаны синтаксической зависимостью.

Вопросы по теме