Встраивание слов: теоретические ограничения

Системы понимания естественного языка (NLU) должны распознавать значение слова в предложении на основе значений других слов в предложении. Там, где существует путаница, контекст дополнительно проясняет значения. В сегодняшней статье рассматривается работа Дж. Р. Ферта и его влияние на современную лингвистику корпуса и концепцию дизайна, известную как встраивание слов, которая широко используется в современных НЛП [i], таких как чат-боты [ii] .

Работы Ферта не современны, так как он умер в 1960 году, но они актуальны как никогда. Как и он, я считаю, что теория является необходимой частью лингвистической модели. Вот его цитата:

Страсть к накоплению так называемых« фактов , нагромождение мелочей, подлежащих статистической обработке, возможно, с использованием несовершенных теоретических принципов, - слишком частые симптомы среди умножающихся среди нас научных техников . Автор считает, что нельзя позволять лингвистике более глубоко погружаться в методологию, но необходимо приложить особые усилия, чтобы сохранить ее в теоретическом порядке. [iii] »

Как видите, Ферт считает, что необходим «теоретический порядок». Чтобы защитить его принципы, давайте посмотрим на основу для встраивания слов, которая утверждает, что Ферт является его центральным сторонником! Я могу ошибаться, но я не думаю, что он был бы счастлив увидеть, что используется в его имени, потому что это не учитывает ключевые части его теории.

Немного терминологии

Было бы немного несправедливо цитировать эксперта в этой области 60 лет спустя, когда современные технологии так радикально отличаются. Информационная эра еще не началась, поскольку работа Ферта закончилась. Сейчас мы знаем о компьютерных науках намного больше: как писать программы, хранить данные и моделировать виртуальные миры, чем во времена Ферта! И все же Ферт цитируется как отец распределительной семантики [iv], корпусной лингвистики [v] и встраивания слов [vi].

Ферт рассматривал значение как в основном… ситуативные отношения в контексте ситуации« [vii] », где контекст ситуации находится между следующими составляющими: A. Участники: люди, личности и соответствующие особенности этих. (i) Словесные действия участников. (ii) невербальные действия участников. Б. Соответствующие объекты и невербальные и неличные события. C. Эффект словесного действия. «[Viii] »

Далее, уровни языка включают: коллокационный, грамматический и фонологический уровни« [ix] ».

Словосочетания - это слова, которые обычно находятся в компании других слов, например «глупая задница» в примере Ферта. Вы можете быть идиотом, но для многих это значит совсем другое, если вы глупый осел.

Сопоставления - это не слова, а отношения между такими категориями, как личное местоимение, именительный падеж первого лица единственного числа и прошедшее время переходного глагола [x]. (В стороне, здесь вы можете увидеть использование моделей частей речи и синтаксиса, внедренных в лингвистическую модель в то время, которые так сильно замедлят нас в будущем!) Ферт четко различал последовательность слов, относящуюся к к чему-то и последовательности слов, относящихся к грамматическим элементам.

Я уверен, что ему хотелось бы увидеть ролевую и справочную грамматику (RRG), поскольку она, кажется, расширяет и разъясняет его модель для всех языков мира. RRG объединяет концепцию дискурс-прагматики, которая логически опирается на «контекст ситуации»!

Достаточно терминологии. Теперь мы можем критиковать, как его работу относят к таким проектам, как «распределительная семантика» и «встраивание слов».

Вы должны знать слово по компании, в которой оно находится!

Когда Ферт писал это, он имел в виду слова, а не фразы. Совместное использование, а не соединение. RRG, современная лингвистическая структура, различает грамматику, значение и контекст как строительные блоки языка [xi].

В то время как в области семантики распределения используется цитата «вы должны знать слово по компании, которую она хранит!», Ферт четко указал, что это относится к «ситуации контекста». Он завершил абзац словами: «… будет видно, что словосочетание не следует интерпретировать как контекст, которым подразумевается весь концептуальный смысл».

Коллокация - это обычная языковая особенность, при которой мозг распознает значение чего-либо по последовательности слов - то, что я называю буквальной фразой. «Рыба-кошка» обычно не означает рыбу, которая является кошкой, в то время как седан Тойота означает седан Тойота. В таких языках, как английский, нет необходимости создавать новые слова для каждой категории объектов в мире, если они могут сочетать такие слова, как «рыба-кот», в качестве составных. Такие словосочетания, как «рыба-кот» или «зубатка», часто встречаются в словаре с их собственным определением.

Как замечает Ферт, такие слова, как «кошка» и «рыба», часто сочетаются в языке, когда относятся к экземпляру рыбы-сома. Давайте перейдем от словосочетания, которое используется для описания конкретной референтной категории, к сопоставлению, которое описывает значение предложения.

Сопоставление, а не коллокация - это синтаксис

Синтаксис - это последовательность слов, передающая отношения между значениями. Как мог бы сказать Оби-Ван Кеноби: «словосочетание - это не то значение, которое вы ищете».

Границы фраз помогают определить значение, а не только словосочетание. Ферт, как специалист в области лингвистики, конечно же, знал это!

Напомним, что «рыба-кот» - это пример словосочетания, в то время как «седан Ford» или «седан Toyota» - очень общие примеры сочетания, в котором значение происходит из некоторых основных (значимых) категорий - седан как референт и другое слово связано с каким-то типом.

В предложении-образце: «кошка увидела собаку» одно только словосочетание сразу же вводит ошибку. Слово «the» вводит значение референта в контекст, который: «уже упоминалось, или является общеизвестным, или вот-вот будет определено». Значение слова не связано со значением слов «кошка», «собака» или «пила». Но теперь мы можем использовать силу человеческого языка, чтобы понять разницу.

«Кошка, которую увидела мышь, увидела собаку». Хммм. Как «пила» соотносится с «пила»? Он размещен вместе, и в соответствии с моделью семантики распределения я должен знать это слово, потому что оно совмещено с самим собой! Если вы посмотрите на фразы - сопоставления - ответ очевиден. «Кошка, которую увидела мышь» - это фраза, означающая «мышь увидела кошку» и сохраняющая значение «кошка» для использования в предложении.

Семантическое представление ясно показывает это в выводе средства сопоставления значений.

Кошка увидела собаку - это значение, которое передается после разрешения встроенной фразы. Но ссылочные фразы (РП) кошка и собака тоже не являются сочетаниями. Это сопоставления, в которых RRG ‘оператор [xii] ’ the определяет определенность слов. Остается кошка - видеть - собака. Значениями этих слов теперь можно управлять с помощью средства сопоставления значений для использования в контексте.

Типичные английские предложения, такие как: «Бет взяла молоко, которое вчера принес молочник», становятся еще более отдаленными от системы семантики распределения. Обратите внимание, что второе слово «выбранный» связано с последним словом «вверх». Эта ассоциация разделена семью словами, но легко может быть намного больше. Это пример коллигации, в которой важны слова, а не значения. Pick + up - это образец.

В этом предложении передается информация, аналогичная информации ИИ в Facebook. Тест bAbI исследовательской группы (например, задача 5), но в одном предложении вместо двух, показывает, что встраивание может быстро нарушить модель словосочетания.

Когда мы углубляемся в испытуемого, мы видим, что «молоко» имеет важный контекст. И прежде чем вы ответите мне, я знаю, что «взял» в этом контексте обычно означает «перенесен», а не СТАНОВИТСЯ иметь » (например,« захватить »), но тесты Facebook не включали это значение в свой тест.

Распределительная семантика: разрешается больше данных?

Решает ли большее количество данных проблему обращения с языком как с большим словосочетанием? Конечно, нет! По мере того, как мы увеличиваем масштаб фраз, словосочетания становятся все более и более шумными. Под шумным я имею в виду испорченный. Человеческая наука редко вводит шум добровольно, потому что конечные результаты становятся менее предсказуемыми.

Поскольку язык построен на фразах, а не на словосочетаниях, статистика для нетривиального языка всегда будет отсутствовать.

Если бы вам пришлось упростить корпус до простых команд, таких как «включить свет», и ограничить пользователей общением только на этом искусственном языке, коллокации были бы прекрасны. Это привело к разговору, который у меня был на днях с инвестором. Он утверждал, что побеждает совет пользователей общаться на подобном искусственном языке. Как Бета проигрывает VHS?

Время покажет, но я ожидаю, что пользователи обратятся к системам, в которых они могут сказать: «Хорошо, Пат, оставь эти огни включенными, но выключи другие» или «Давай с настройками освещения прошлой ночью». Альтернатива: «Включите свет 3. Включите свет 4. Выключите свет 5. Выключите свет 7. Выключите свет 136. Включите свет 12.» Менее привлекательно? Это несколько поляризующее - полный язык с одной стороны и набор команд с другой стороны.

Используя такие особенности языка, как согласование из полной теории Ферта, диалоговые системы будущего будут делать то, что хотят пользователи, а не технологии. Я думаю, что требования пользователя преобладают над требованиями технологии.

Расширение распределительной семантики: ELMo

Я постоянно слышу, что секрет научного успеха кроется в постепенном улучшении от некоторых честолюбивых руководителей бизнеса, игнорирующих преимущества революционных инноваций. Я не согласен, поскольку история показывает, что научные революции приносят улучшения, когда парадигма наследия не может продвигаться дальше. Достаточно взглянуть на введение эпициклов, чтобы объяснить ретроградное движение. ELMo [xiii] - это постепенное улучшение встраивания слов в сочетании с искусственными нейронными сетями (RNN / LSTM).

«ELMo - это глубоко контекстуализированное представление слов, которое моделирует как (1) сложные характеристики употребления слов (например, синтаксис и семантику), так и (2) то, как это использование различается в зависимости от языкового контекста (например, для моделирования многозначности)».

Согласны ли вы с тем, что постепенное улучшение является ключом к научному прогрессу, опыт показывает, что эпициклы на геоцентрической модели не привели к улучшенной модели солнечной системы, независимо от того, лучше ли она предсказывала положение планет или нет. Точно так же остается вопрос, сможет ли улучшение, основанное на встраивании слов и его недостатках, когда-либо привести к точному NLU.

Команда ELMo утверждает, что основные особенности включают: «Контекстное: представление каждого слова зависит от всего контекста, в котором оно используется». Возникает вопрос, соответствует ли это значение контекста модели Ферта о «контексте ситуации»?

Контекст ситуации

Когда люди говорят, что их вырывают из контекста, мы понимаем, что используемые слова передают другое сообщение, когда они не являются частью всего дискурса. Когда специалист по информатике говорит о контексте задачи, он имеет в виду «минимальный набор данных, который необходимо сохранить, чтобы задача могла быть прервана, а затем продолжена с той же точки». Когда лингвист корпуса говорит о контексте, он имеет в виду конкретный разговор, книгу или другой источник текста.

«Контекст ситуации» другой. Он описывает, как работает человеческий язык. В разговоре о математике я могу упомянуть игру Лейкера. Ссылка никоим образом не означает, что Лейкерс - это какая-то математическая команда. В контексте разговора о математике есть еще один контекст о баскетбольной команде. Языки или, что более вероятно, человеческий мозг позволяют в любой момент изменить контекст ситуации.

Другими словами, предложение: «Вы видели вчера игру« Лейкерс »в STAPLES Center?» может быть встроен практически в любой разговор, книгу или ситуацию и создает свой собственный, отдельный контекст, отличный от текущей темы. Это, как и ожидалось, основано на определении Ферта.

Нам нужно начать использовать наш язык более точно, чтобы избежать путаницы. Однажды я разговаривал с руководителем крупной ИТ-компании, который объяснил мне, что проблемы контекста решаются поисковыми системами. Хотя это несколько подорвало нашу дискуссию, это также отразило тот факт, что технический жаргон при использовании общих терминов подрывает наше общение.

ELMo использует не контекст ситуации, а контекст, определенный как набор исходных документов. Это не контекст, как человек понимает его на языке.

Резюме

Это действительно захватывающее время для участия в индустрии НЛП.

Многим из нас не нравится идея о том, что А. это какая-то неточная наука. Опора на статистические методы для замены человеческих способностей, которые кажутся чрезвычайно точными, вызывает беспокойство. Принятие систем, от некоторых из которых зависят человеческие жизни, может быть еще хуже, когда они не могут объяснить свой процесс принятия решений. В качестве примеров можно привести беспилотные автомобили и принятие медицинских решений на основе изображений.

В то время как лингвистика продолжала развиваться после перехода в 1990-е годы к статистическим системам, сообщество НЛП сузило свои рамки, чтобы сосредоточиться на старых идеях, которые не оправдывают ожиданий сообщества пользователей. Сегодня может быть трудно поддерживать разговор между лингвистом и компьютерным ученым в сообществе НЛП, поскольку они разошлись за последние 30 лет. Компьютерный ученый, кажется, сосредоточен на математических и статистических аспектах корпусов, в то время как лингвисты рассматривают сложные отношения в одном или нескольких естественных языках на основе теории.

Теперь это начнет меняться, когда мы начнем внедрять реальный NLU в наши системы NLP. Если мы все сосредоточимся на превращении NLU в разговорный искусственный интеллект, ускорение технологических улучшений может возобновиться в NLP [xiv]. И это раздражающее ощущение, что наш компьютерный интерфейс не может отражать работу мозга, может прекратиться.

[I] https://www.quora.com/What-is-word-embedding-in-deep-learning для введения в встраивание слов и его связь с глубоким обучением.

[Ii] https://chatbotsmagazine.com/introduction-to-word-embeddings-55734fd7068a из журнала чат-ботов.

[Iii] Исследования по лингвистическому анализу, Бэзил, Блэквелл, Оксфорд, 1962: Дж. Р. Ферт, Краткий обзор лингвистической теории, 1930–1955, с. 1.

[Iv] Их много, например https://arxiv.org/pdf/1304.5823.pdf Эдвард Грефенстетт, К формальной распределительной семантике: моделирование логических исчислений с помощью тензоров, 2013, стр. 2.

[V] Текст и технология: В честь Джона Синклера, Стаббса, М., Британские традиции в анализе текста от Ферта до Синклера, издательство John Benjamins Publishing Company, 1993, с. 1.

[Vi] Том Хоуп и др., Learning TensorFlow: A Guide to Building Deep Learning Systems, O’Reilly, 2017, p. 96.

[Vii] Ферт, op. соч., стр. 2.

[Viii] Ферт, op. соч., стр. 9.

[Ix] Ферт, op. соч., стр. 9.

[X] Ферт, op. соч., стр. 13.

[Xi] Роберт Д. Ван Валин мл., Изучение интерфейса синтаксис-семантика, Cambridge University Press, 2005, с. 2.

[Xii] Ван Валин, op. соч., стр. 8–11.

[Xiii] https://allennlp.org/elmo для Института искусственного интеллекта Аллена и https://arxiv.org/pdf/1802.05365.pdf для соответствующей статьи.

[Xiv] Очевидно, что в НЛП продолжается работа и постепенное улучшение, но если сосредоточиться на конечном результате, в котором пользователь взаимодействует с машиной с помощью текста или голоса, технологический прогресс не воспринимается, потому что существует большой разрыв между ожиданиями (как человек взаимодействует) и человеко-машинное взаимодействие (как машина взаимодействует) в современном языке.