Составные вероятностные контекстно-свободные грамматики для ознакомления с грамматикой: что делать дальше?

Райан Коттерелл и Адина Уильямс

После моего (Райана) недавнего сообщения в блоге с обзором Kim et al. (2019) , я (Райан) получил просьбу прокомментировать ограничения их нейронной модели PCFG - как в ее приложении к английскому языку, так и, в более широком смысле, в его приложении к другим языкам, синтаксис которых типологически отличается от синтаксиса английского языка. Конечно, когда вас просят прокомментировать что-то, что не на 100% в вашей области знаний, в данном случае теоретический синтаксис, естественно, это связаться с экспертом в предметной области, которого здесь играет Адина. Это сообщение в блоге служит учебным пособием по теоретической синтаксической конструкции, известной как движение, как она связана с грамматической индукцией и, таким образом, обсуждает несколько открытых проблем в этой области. В моем предыдущем посте я (Райан) объяснил, почему лингвисты считают, что иерархическая структура округов существует, и как предыдущие модели, основанные на PCFG, не смогли надежно вызвать ее из исходного текста в течение 30 с лишним лет. Хотя Ким и др. (2019) модель не решает грамматическую индукцию в любом смысле слова решать, и это довольно захватывающая разработка. Однако над этой темой необходимо проделать гораздо больше работы. Этот пост, однако, касается немного другой проблемы: Kim et al. (2019) недостаточно выразительна, чтобы справиться с полным объемом задачи, которая требует гораздо больше усилий, чем ограниченная версия грамматической индукции, которую Ким и др. относиться. Мы (Райан и Адина) поясним этот момент ниже на примерах и обсудим возможные пути продвижения вперед.

Заявление об ограничении ответственности. Синтаксический анализ здесь выполняется с использованием классических методов, разработанных в 1960-х годах. С тех пор было сделано множество разработок в бесчисленных теоретических парадигмах.

Проблема: почему мы следуем грамматике

Введение в грамматику - странная задача в НЛП. Мы объясним, что мы чувствуем по этому поводу и как мы рассматриваем задачу как развивающуюся. Странность, как мы воспринимаем, проистекает из того факта, что индукция грамматики является когнитивно релевантной задачей для лингвистического сообщества, но, что почти противоречиво, в первую очередь исследуется людьми, которые не всегда обучены лингвистике.

Когнитивная релевантность

Причина, по которой сообщество НЛП работает над индукторами грамматики, заключается в том, что это когнитивно актуально. Детям удается выучить синтаксис своего языка только на положительных примерах. Итак, не должны ли компьютеры делать то же самое? В отличие от многих задач в НЛП, например ответы на вопросы и машинный перевод, непонятно, индукция грамматики имеет какие-либо практические инженерные или коммерческие цели. В самом деле, никто из нас не относится к тем исследователям, которые думают, что машинным переводчикам или чат-ботам, например, нужно понятие синтаксиса, чтобы служить их коммерческим целям. (Однако в качестве альтернативной точки зрения см. Naradowsky, Riedel and Smith (2012) и Gormely, Mitchell, Van Durme and Dreze (2013) для успешного включения грамматической индукции в маркировку семантических ролей и, возможно, другие Таким образом, за исключением некоторых откровений о том, что нам нужен латентный синтаксис для современных моделей НЛП, единственная причина постоянного интереса к наведению грамматики - когнитивная. Лично мы находим эту мотивацию более чем удовлетворительной и считаем грамматическую индукцию одним из самых захватывающих вариантов использования машинного обучения в приложении к научному изучению языка (кстати, это просто еще один способ сказать лингвистика).

«Задача» НЛП

С другой стороны, исследователи грамматической индукции не так настроены на сообщество когнитивных наук, как могли бы (или осмеливаемся сказать, что должны?). Большинство из тех, кто занимается наведением грамматики, не обучены когнитивным наукам или лингвистике и не знакомы с этой литературой. (Примечание: мы написали большую часть, а не все.) Несмотря на то, что наведение грамматики по своей сути является междисциплинарной задачей (лингвистика + компьютерное моделирование), к сожалению, над ней в основном работает почти исключительно одно сообщество - компьютерные науки. Мы всегда находили, что это противоречие делает задачу непонятной. И, к сожалению, это означает, что более широкое сообщество НЛП, в котором проводится исследование, не всегда может оценить важность введения грамматики в науку.

Еще один важный момент заключается в том, что введение в грамматику, как и большинство задач НЛП, проводится в лидерах, что отговаривает многих лингвистов от работы над задачей. Под лидером мы подразумеваем, что часто очень трудно опубликовать на конференции НЛП статью по индукции грамматики, которая не дает результатов, , даже если статья может иметь подлинное научное влияние ! Многие лингвисты считают идею рейтинга лидеров ненаучной по своей сути, поскольку она отодвигает понимание на второй план по сравнению с эмпирическими характеристиками системы.

Лингвистика: прерывистые составляющие

Мы начнем с некоторых лингвистических наблюдений, которые затрудняют введение в грамматику. Давайте рассмотрим следующие два предложения:

(1) Инженер обучает LSTM.

(2) Что обучает инженер?

В (1) [обучает [LSTM]] составляет составную часть. Я (Райан) подробно рассказывал об этом в своем предыдущем посте. Важно отметить, что это непрерывный составной элемент в том смысле, что слова, составляющие составной элемент, образуют непрерывный промежуток предложения. (Если вы знакомы с формальными свойствами контекстно-свободных грамматик (CFG), составляющей в рамках этой модели является доходность данного нетерминального терминала. В случае CFG эта доходность всегда будет непрерывным промежутком предложение.) Однако, анализируя предложения, подобные (2), многие лингвисты утверждали, что [тренировать то, что] также образует составную часть (Chomsky, 1975) по аналогии с [тренирует [LSTM]]. Как должно быть очевидно, эта составляющая является прерывистой, например слова, составляющие составную часть, не являются непрерывной строкой. Однако может быть неочевидным то, что это создает проблему для многих (большинства?) Индукторов грамматики в литературе. Во-первых, давайте разберемся, почему мы можем захотеть, чтобы это было так [тренируем, что] образует составляющую, а затем мы объясним один теоретический прием, известный как движение, распространенный в генеративном синтаксисе для моделирования этого. После этого мы рассмотрим некоторые возможные расширения Kim et al. (2019).

Основная причина для рассмотрения [тренировать что] как единственного контигента - это то, что «что» является прямым объектом глагола «тренировать» в (2), и мы могли бы пожелать, чтобы глагол и его прямое дополнение всегда образуют составляющую, как в (1). Если вам нужно убедить вас в том, что анализ [тренировать что] разумно как составную часть, рассмотрите это (разговорное) предложение на английском языке:

(3) Инженер обучает что?

Хотя вы можете произнести (3) только в тех случаях, когда во время разговора друга раздался громкий шум и затемнял предмет своего предложения, это в основном эквивалентно по значению (2). Также учтите, что многие языки, например Китайцы, wh-fronting не выставляют. Рассмотрим два предложения на мандаринском диалекте

(4) 你 (nǐ; вы) 喜欢 (xǐhuān; любовь) 纽约. (niǔyuē; Нью-Йорк)

(5) 你 (nǐ; вы) 喜欢 (xǐhuān; любовь) 什么? (shénme; что)

Мы видим, что (4) и (5) похожи в том, что структура избирательного округа [xǐhuān [niǔyuē]] и [xǐhuān [shénme]] больше соответствует линейному порядку слов в языке. Это явление известно как wh-in-situ. У нас нет времени перефразировать их здесь, но лингвистическое сообщество выдвинуло большое количество аргументов, которые [тренируют то, что] на самом деле должны быть составной частью. Мы отсылаем читателя к Адджеру (2003), Карни (2006) или другому учебнику синтаксиса, чтобы получить краткое изложение этих аргументов.

Мотивацией к движению является следующее желание: было бы здорово, если бы все глагольные фразы имели одинаковую структуру? Другими словами, иерархическая структура в (1) и (2) отражала тот факт, что грамматические отношения между поездами и LSTM в (1) и поездами и что в (2) , мы одинаковы? В самом деле, мы могли бы сделать гораздо более широкое типологическое утверждение, возможно, даже языковую универсальность, согласно которой глаголы и их прямые объекты образуют составную часть во всех языках. Ноам Хомский подумал, что это тоже было бы здорово, и, по сути, он представил идею трансформационной грамматики для решения подобных задач (Chomsky, 1965). Идея трансформационной грамматики действительно проста: у предложений есть два дерева: лежащее в основе дерево и дерево поверхности. В базовом дереве положение прямого объекта в (1) и (2) такое же, как показано в их деревьях синтаксического анализа, показанных ниже. (Напомним: грамматики - это не что иное, как математические модели языка. Если вы подниметесь достаточно высоко в онтологии математического моделирования, грамматики принципиально не отличаются по назначению от нейронных сетей, поскольку и грамматики, и нейронные сети являются не чем иным, как точными математическими выражениями. это (попытка) описать динамику естественного языка.)

Итак, если мы допустим, что приведенные выше деревья синтаксического анализа являются хорошими базовыми представлениями предложений (1) и (2), возникает вопрос: как правильно упорядочить слова? Здесь вступает в движение. Движение - это преобразование, которое берет лежащее в основе дерево, такое как дерево (2), и преобразует его в дерево поверхностей, показанное ниже.

Примечание: мы избегали говорить о явлении в английском языке, известном как do-insert, когда глагол to do неожиданно появляется в (2).

Обычно стрелки показывают исходное положение слов и их новое положение. Элемент t называется след и остается невысказанным - он служит только для обозначения исходной позиции «что».

Если вы компьютерный ученый (которому адресована эта запись в блоге), вы можете спросить, как вычислить такое преобразование. Ответ, хотя и весьма серьезный, лежит в древовидных автоматах. Фактически, такие преобразования из дерева в дерево были одним из первых вариантов использования древовидных автоматов. Если вы НЛП, вы можете найти использование древовидных автоматов для различных приложений НЛП в Graehl, Knight and May (2008).

Конечно, вы можете сказать, что вопросы не так распространены в английском языке - к ужасу многих НЛПеров, работающих над ответами на вопросы, - и, возможно, подходить к ним по-другому уже достаточно. Но подождите, есть целые языки, которые требуют глубокого анализа движений, если мы хотим, чтобы глаголы и их прямые объекты образовывали составные части! Давайте рассмотрим случай современного ирландского языка, в котором порядок слов по умолчанию - глагол-субъект-объект. Вот предложение на современном ирландском языке, взятое из книги Карни (2006; стр.150):

(6) Phóg (поцеловал) страх (мужчина) mhuc (свинья)

Опять же, если мы хотим, чтобы это был универсальный язык, в котором глаголы и их прямые объекты образуют составные части, мы требуем, чтобы [phóg an mhuc] (поцеловал свинью) был единым составным элементом. Это снова прерывистый компонент. Конечно, по тем же причинам, что и вопросы по английскому языку, основанная на PCFG модель грамматической индукции не может легко смоделировать этот случай. Один традиционный анализ (6) включает движение, как показано на дереве ниже:

Еще одним вероятным подозреваемым в синтаксическом перемещении являются относительные предложения (т. Е. DP, встраивающие более крупное предложение):

(7) Мне нравится мужчина, которого любит кошка ___.

Здесь также кажется, что нам нужно иметь след wh-элемента в позиции объекта и переместить его в начало DP, чтобы получить правильный порядок слов. Из тем, изучаемых в лингвистике, синтаксическое движение, безусловно, является одним из самых популярных, и мы можем привести здесь только самые грубые примеры (то есть мы опускаем различия между фразовым движением и движением головы, а также многие другие важные различия). Но мы считаем, что с учетом этих примеров синтаксическое движение или что-то, что позволяет достичь тех же целей, совершенно необходимо. Если мы хотим точного описания известных лингвистических фактов, чтобы мы могли делать хорошие прогнозы относительно ранее неизученных языков, мы должны признать существование феномена движения.

Прежде чем мы оставим эту тему, стоит упомянуть две вещи: (1) движение определенно не является единственным примером так называемых прерывных составляющих (любопытно, что другие примеры прерывных составляющих могут включать контроль и связывание , которые, несомненно, имеют значение для задач НЛП, таких как разрешение кореферентности), и (2) лингвистические исследования этих тем значительно продвинулись с 1965 года (например, были предложены такие загадочные вещи, как множественное доминирование ), и даже если наше понимание трансформаций продвинулось вперед, они в основном используются здесь в целях объяснения.

Ограничения Kim et al. (2019)

Теперь, основываясь на интуиции, приведенной в приведенных выше примерах, давайте погрузимся в ограничения Kim et al. (2019) индуктор грамматики. Задача индуктора грамматики на основе округа состоит в том, чтобы восстановить границы фразовых составляющих без прямого контроля. То есть модель принимает необработанный текстовый корпус в качестве входных данных и возвращает некоторое представление, возможно, дерево из контекстно-свободной грамматики в качестве выходных данных. Модель, как описывают Ким и компания, не может обрабатывать прерывистые составляющие, потому что в ее основе лежит PCFG. Таким образом, модель не может вернуть представление, в котором «тренировать что» составляет составляющую в (2). Или, что [phóg [an mhuc]] является составной частью в (6). Оценка в этой и большинстве других статей по грамматической индукции - это хитрость, которая заставляет все деревья иметь непрерывные составляющие, даже если этого недостаточно с лингвистической точки зрения. Чтобы убедиться в этом, просмотрите следующий синтаксический анализ вопроса в стиле Penn Treebank:

Обратите внимание, что мы использовали другую схему нетерминальной маркировки, но грамматическая индукция обычно не оценивается с использованием нетерминальных меток, поэтому это не имеет значения.

С этой (недостаточной) золотой аннотацией модель могла бы получить полную оценку за обнаружение синтаксической структуры вопроса без выяснения того, что [тренировать что] составляет составляющую. Нет буэно. Другими словами, Kim et al. рассматривать только игрушечную версию полной задачи по наведению грамматики. Несмотря на то, что он игрушечный, как показали 30-летние исследования, все же невероятно сложно создать хороший индуктор грамматики. Итак, как нам обойти это ограничение и начать моделировать прерывистые составляющие? Один из способов - явно изучить модель движения. Неповторимый Джейсон Эйснер отлично справляется с этой задачей, и мы еще не успели полностью осознать это, но на конференциях его легко вытащить, если вы хотите, чтобы он (горячо) взялся за дело. Другое возможное решение лежит в теории формального языка (включая, помимо прочего, работу T. Graf, S. Laszakovits и коллег), которая работала над построением грамматических формализмов, допускающих разрывные составляющие. Одна из таких грамматик, которая является грамматикой, примыкающей к дереву (TAG). Ниже приведен пример TAG-дерева с прерывистой составляющей.

Как было показано (Виджай-Шанкер и Вейр, 1994), TAG допускает алгоритм O (| x | ⁶) для суммирования по всем деревьям. Было бы относительно просто адаптировать Kim et al. (2019) в TAG, но это может быть вычислительно невыполнимым, так как O (| x | ⁶), хотя и является полиномиальным, по-прежнему является медленным.

В предыдущем посте мы довольно активно отстаивали составляющие, но зачастую иерархические отношения между словами имеют большее значение для лингвистов, чем точное улавливание всех фразовых составляющих. Вы можете спросить, почему тогда мы вообще говорили о трехсторонних участниках? Что ж, восстановление составляющих границ - это именно задача, которую Ким и др. (2019) работал над. Действительно, он оценивается немаркированным избирательным округом F1, как в таблице 1 Kim et al. (2019). Вы также можете спросить, почему анализ Oracle в их Таблице 1 не является 100%. Причина в том, что деревья PTB не являются бинарными, и эти небинарные деревья аппроксимируются бинарными деревьями, поэтому индуцированные бинарные деревья всегда будут далеки от границ золотых составляющих из золотых небинарных деревьев.

Основываясь на том, что важность контингента не важна, мы переходим к грамматике зависимости. Если вы не привязаны к идее, что составляющие в основе своей непрерывны, тогда проблемы, с которыми сталкиваются прерывистые составляющие, исчезнут. Например, игнорирование контингента эффективно помогает грамматике зависимостей (Tesnière, 1959) решать проблему разрывных составляющих. В качестве примера ниже показан анализ зависимостей (1) и (2):

В случае (1) мы имеем, что [LSTM] имеет поезда в качестве головы, а в случае (2) у нас есть это [что] имеет поезда в качестве головы - это именно то, что мы хотели. Здесь у нас нет базовой структуры в (2), где [тренировать что] является лежащей в основе непрерывной составляющей. Фактически, способ показать, что что имеет такое же отношение к обучению, как и LSTM, - это дуга, помеченная синтаксическим отношением (здесь DOJB). Действительно, по нашей оценке, одна из причин того, что проект Универсальные зависимости аннотирует деревья зависимостей, а не деревья постоянных групп, заключается в том, что грамматики зависимостей обходятся без необходимости как базового, так и поверхностного дерева, что потребовало бы более подготовленных аннотаторов для поиска лежащие в основе позиции многих слов.

В качестве технического примечания, оба приведенных выше анализа зависимостей являются проективными, то есть дуги не пересекаются при рисовании над предложением. В конструкции, данной Johnson (2007), вы можете преобразовывать проективные деревья в контекстно-свободный синтаксический анализ. Однако такое преобразование приведет к CFG с ложной двусмысленностью, то есть в грамматике есть более одного дерева производных, которое соответствует одному синтаксическому анализу производной зависимости. Это проблематично, потому что разные деревья деривации демонстрируют разную структуру округов. Это означает, что грамматика зависимостей может рассматриваться как недооцененная по отношению к структуре избирательного округа. Также отметим, что в формализации Kim et al. (2019), индуктор грамматики не требуется для восстановления синтаксических заголовков, которые также указаны в грамматике зависимостей. Таким образом, индуктор грамматики, основанный на зависимостях, должен обнаруживать взаимосвязь между головами (больше информации, чем открывает модель Кима и др.), Но не должен обнаруживать фразовые границы избирательных округов (меньше информации, чем раскрывает модель Кима и др.).

Куда пойти отсюда?

Естественный следующий шаг для расширения возможностей Kim et al. (2019) заключается в использовании их параметризации для модели зависимости с валентностью (DMV) из Klein and Manning (2004). Однако модели для введения в грамматику должны работать со всеми языками мира. В конце концов, ребенок может выучить синтаксис любого языка, с которым он познакомился в юном возрасте. Основное ограничение здесь заключается в том, что модель DMV обрабатывает только проективные деревья зависимостей.

Хотя английский синтаксис покрывается проективными деревьями относительно хорошо, то есть ›95%, таблица 1 выше показывает, что такие языки, как голландский, не охвачены таким ограничением. Другими словами, DMV применительно к голландскому языку не смог правильно получить синтаксис более чем для 63,6%, что не очень хорошо. Существуют естественные способы расширить индукторы грамматики на основе зависимостей для обработки непроективных деревьев, например Cohen et al. (2011) дают модель, допускающую точный вывод для непроективных деревьев, хотя и за время O (| x | ⁸). В то время как алгоритм Коэна и др. Для точного маргинального вывода довольно медленный, Карлос Гомес Родригес, один из наиболее новаторских исследователей в области НЛП, опубликовал серию недавних статей, которые предоставляют вероятностные модели, которые могут быть нормализованы на множестве, не являющемся проективные деревья зависимостей за время O (| x | ⁴). Мы надеемся найти время, чтобы объединить эту линию работы с недавним предложением Кима и др. в ближайшем будущем.