Человеческий язык подобен коду. Наш мозг принимает важные идеи и преобразует их в последовательности движений мышц, чтобы общаться с другими. Он также делает обратное, преобразовывая полученные звуки в их смысл. Это работает с другими способами, такими как письмо, прикосновение и язык визуальных жестов. Общение очень богатое и гибкое, позволяет иметь дело с реальными знаниями, а также с изысканно обобщенными деталями в рамках непосредственного разговора.

Сегодня я исследую модель взлома кода, которая позволяет достичь конечной цели понимания естественного языка (NLU): понять полное значение языка и затем сохранить его для постоянного использования. Представление знаний со смыслом будет полностью эффективным только тогда, когда оно сохранит непрерывный поток от человеческого языка к значению и обратно. Мы рассмотрим общий вид, чтобы показать, как это сделать, основываясь на модели системы Pat Inc. (Pat), которая уже работает в их лаборатории. Затем примеры показывают, как значение исходит из ряда совершенно разных предложений.

I. Справочная информация

Вот три ключевых строительных блока для NLU:

  1. Теория Патома: теория мозга, которая устраняет ограничения цифрового компьютера, такие как «кодирование памяти», когда для понимания хранимых данных вам необходимо указать их тип, прежде чем вы сможете их интерпретировать;
  2. RRG: лингвистика, учитывающая контекст любого человеческого языка; и
  3. Семиотика: модель, показывающая, как знаки плюс значение задействуют человеческий язык (с помощью знаков, значков и символов).

Теория Патома: я разработал теорию Патома (мозга) [i] в 1980-х и 1990-х годах в ответ на вопрос: Как медленный мозг может превзойти суперкомпьютеры в биологических задачах, таких как движение и человеческий язык. ? . Его модель может хранить, сопоставлять и использовать только иерархические двунаправленные шаблоны, состоящие исключительно из наборов и списков.

Теория Патома утверждает, что, поскольку мозг получает доступ только к конкретной информации, он должен сам находить общую информацию: основная функция, которая результат иерархического сопоставления с образцом.

Патомы не похожи на обычное компьютерное представление. Каждый паттерн можно представить только один раз - это атом. Конечно, патомы, в свою очередь, представляют собой наборы или списки других патомов в иерархии. Пример того, как теория, основанная на «множествах и списках», согласуется с человеческим языком: посмотрите на выделенные ниже слова, чтобы увидеть использование множеств и списков. Модельный язык со словами (знаками), хранящимися как наборы значений; моделировать фразы как наборы путем объединения списков значений, чтобы затем распознавать подтвержденные семантические наборы значений. Такие атомы согласуются с семиотической моделью и обеспечивают поддержку гипотезы набора и списка, лежащей в основе теории Патома. В языковой модели ниже есть патомы, которые представляют определенные слова (например, Джон Сэмюэл Болл), и те, которые представляют общие слова (например, человек), причем оба они построены на основе одной и той же (семиотической) модели, но различаются по функциям.

Такая система, описываемая теорией Патома, работающая только на атомарных значениях, поэтому чисто символическая.

Распознавание значения позволяет использовать множество различных способов сопоставления в иерархии, например, букву «а» можно распознать большим количеством различных визуальных элементов без необходимости в общности их представлений. Точно так же множество различных шаблонов также может определять отдельные слова по значению, или множество слов могут определять одно и то же значение.

Патомы также устраняют необходимость поиска, поскольку уникальные элементы сохраняются только один раз. Сегодня поисковые системы создают индексы последовательностей знаков, чтобы быстро находить совпадения в данных. Но запрещая сохранение знака более одного раза и применяя ту же методологию к смыслам слов и представлению «фактов» в контексте, человеческая память возникает в результате следования патому до его ассоциаций.

Короче говоря, машина на базе Patom не нуждается в поиске, структурах данных или сетях, по крайней мере, в том виде, в каком мы знаем это в мире информационных технологий сегодня.

RRG: NLU преобразует слова в значение в контексте, но где мы определяем структуру значения? Ответ можно найти в единственной рабочей версии, а именно на человеческих языках. По этой причине грамматика ролей и ссылок [ii] (RRG) является ключом к графу суперзнаний (SKG), основанному на значении, контекстно-интегрированному репозиторию.

SKG предоставляет будущим системам «общую основу», основу для взаимопонимания в устной коммуникации. SKG будет управлять системами следующего поколения, поскольку он позволяет повторно использовать все человеческие языки, поскольку он не зависит от языка. Это обеспечивает масштабируемость, в отличие от сегодняшних систем, ориентированных на данные, где каждая база данных зависит от языка или приложения и, следовательно, требует репликации для каждого языка. SKG также позволяет непрерывное расширение без прерывания работы.

Как упоминалось в предыдущей статье, показанное не зависящее от языка представление использовалось для выполнения диалоговых задач ИИ со 100% точностью [iv], опираясь на многоуровневую модель предложения RRG, которая была протестирована на многих различных языках. эффективно демонстрируя универсальную модель для всех человеческих языков.

Семиотика: К.С. Трехуровневая семиотическая модель Пирса используется для представления языков: (а) знак - это звук (или символы / изображение /…) слова, которое соединяется с (б) множественными смыслами слова (значениями / потенциальными интерпретациями) для представления ( в) объекты реального мира. Напротив, большинство современных высокопроизводительных систем исключают значение и поэтому работают исключительно на статистической манипуляции знаками.

II. Что такое человеческий язык?

Языки работают так же, как они, из-за того, как работает человеческий мозг. Мозг также постоянно изучает языки, добавляя новые референты (специфические) на протяжении всей жизни, спустя долгое время после того, как язык (общий) установлен. Контекст также распространяется на всю нашу жизнь через обучение.

Мы идентифицируем «конкретное» - новых референтов в разговоре - путем включения его категории. Попробуйте - попросите друга придумать нового референта. Затем попросите их описать это в нескольких словах. Вы услышите категорию в их определении. Например, «Бум Бам Ба Лоо» - это остров ». Или «Glub - это своего рода фрукт». Ожидайте, что определение также будет контрастировать с вашей категорией, так как слово «glub» - это своего рода фрукт с семенами и косточками фиолетового цвета. Если бы не было контраста, у вас не было бы причин для нового слова.

Так как же нам подражать мозгу? Начните с теории мозга!

Следствием теории Патома является то, что, поскольку мозг всегда имеет доступ только к сенсорному опыту, определенные шаблоны («конкретное»: переживаемые вещи) определяют общие шаблоны («общие»: вещи, которые происходят из конкретного) - конкретное определяет общее. Эта функция может использоваться для моделирования масштаба проблемы для декодирования и кодирования человеческого языка.

Современные научные модели в компьютерной лингвистике утверждают, что понимание языка невозможно (как я уже писал здесь), даже если оно выполняется на суперкомпьютерах, из-за экспоненциального роста комбинаций современных ИИ. Модель создает комбинаторный взрыв, а не сам язык. Но, по-другому разбивая проблему со смыслом, вместо частей речи и синтаксического анализа, мы получаем систему, которая может работать в медленном мозгу, который просто выполняет сопоставление с образцом: мы можем сделать вывод, что это то, что мы можем запустить сегодня даже на старых цифровых компьютерах.

Значение - предикаты и референты. Смыслы (значения) слова бывают двух видов - предикаты и референты. Смыслы - это чисто смысловые (смысловые) элементы. На практике люди могут выучить новый язык, используя пару тысяч слов или меньше, и все же, очевидно, есть гораздо больше слов, с которыми нужно иметь дело. Как это может быть?

В теории Патома есть свои особенности - ваш брат Дэвид, ваша книга Алана Тьюринга и компания Пэт. В мире существует множество миллиардов конкретных вещей, и все они имеют уникальные имена - люди, компании, продукты и т. Д. И затем есть общие вещи, которые описывают категории, например, такие как люди, книги и компании. Общих вещей относительно немного, особенно по сравнению с конкретными.

RRG идентифицирует классификационное указание для присвоения объекта классу, типу или виду, например Джон - врач. " «[Vi] Другими словами, в языках есть способы классифицировать тип референта. В этой предикации конкретика относится к общим категориям. Теория патома была основана на наблюдении, что мозг автоматически распределяет вещи по категориям - иерархическое преимущество, которое позволяет наследовать свойства категорий - и которое согласовывает смысловую часть мозга с использованием языка для присвоения видов .

Дело в том, что категорий относительно немного по сравнению со спецификой в ​​мире. Возьмем, к примеру, «кашу» (общую). Конкретным продуктом может быть: «Протеиновая каша Quaker Oats». Теперь в предложении мы видим конкретное, определяемое генералом: «Quaker Oats Protein Porridge - это каша». Поскольку пищу можно есть, если мы знаем, что каша - это еда, мы знаем, что ее тоже можно есть. Этот подход может использовать общее для каждого конкретного продукта всего с несколькими ассоциациями.

В прошлой статье упоминалась концепция ограничений выбора, в которой предикат допускает только ограниченные аргументы. Другими словами, предикаты определяют свои референты. И у референтов есть категория. Теперь, назначая предикатам высокоуровневые категории (на основе опыта сказанного), предикат eat может разрешить свои аргументы с помощью акторов = animate и undergoer = food. Здесь каша - это разновидность еды, поэтому с помощью двух шагов мы подтверждаем, что Джон (анимированный, актер) может есть овсяную белковую кашу Quaker Oats (-is-porridge-is-food, undergoer ).

Как было сказано выше, изучающие язык могут освоить новый язык с тысячей слов или около того, но современные решения искусственного интеллекта ищут миллиарды слов для учебных целей. Причина, по которой изучающим язык нужно так мало слов, заключается в том, что они могут выучить новые референты на лету, получив их категорию. Чтобы подражать этому, я моделирую язык, используя общие слова (предикаты и референты) в качестве отправной точки, а специфические (слова и фразы референтов) наложены поверх.

Другими словами:

Эти общие «референты и предикаты» являются отправной точкой языка, а не так называемыми (именованными) объектами или другими особенностями.

Категории ограничений выбора предиката можно узнать на собственном опыте, основываясь на аргументах, которые занимают определенные позиции в их семантическом представлении. Общности должно быть достаточно для выбора аргументов, когда дан референт, имеющий много значений.

И, выбирая значение слова из референта, который является категориальным словом (любое общее слово, которое используется для связывания более чем с одним конкретным словом), мы можем эффективно ограничивать предикаты для определения правильных значений слов. Этот процесс известен как устранение неоднозначности смысла слова и играет ключевую роль в определении значения в языке. Комбинированный метод позволяет изучать язык при условии, что учащийся также имеет доступ к неязыковому распознаванию - например, зрению, слуху, осязанию, равновесию и другим чувствам. Нелингвистическое распознавание - это фундаментальная особенность теории Патома, согласно которой мозг постоянно сопоставляет шаблоны и комбинирует их.

Язык начинается с контекста

В лингвистике необходимо учитывать два вида контекста: непосредственная точка соприкосновения (ICG) и общая точка соприкосновения« [v] (GCG)». Я буду использовать термин контекст в этой статье для обозначения непосредственной точки соприкосновения, поскольку его определение - это знание данной ситуации, которое разделяется со всеми коммуникаторами. Контекст не использует правильные термины для нашего долгосрочного репозитория, поскольку он позволяет использовать проформы (проформы - это обобщенные типы местоимений, которые применяются к другим категориям), но GCG отличается, доступ к нему осуществляется путем предварительной идентификации элементов, которые необходимо внести. в контексте.

GCG (общая точка соприкосновения) - это граф суперзнаний, хранящий однозначные знания, связывая значения в контексте.

Пользователи языка избегают повторения полных имен снова и снова после введения нового объекта, затем ссылки на его категорию, а затем на его «местоимение». Например. «Я вижу там Джона Болла, человека, который изучал когнитивные науки. Он все еще очень активно развивается ». Это показывает контекст в действии.

На рисунке 1 ниже показано отслеживание контекста как отдельная часть распознавания языка. Сначала проверяя новые значения в контексте и, если они не найдены, добавляя их; а затем связывая значение фраз в конкретных или общих референтах или общих предикатах, система сокращает усилия по повторению уже введенных референтов. Обратите внимание, что существует два уровня референта - конкретные вещи в мире и их общее значение, связанное с их категориями в языке.

Идея состоит в том, что две формы контекста взаимодействуют. Просто создавая новый непосредственный контекст, когда что-то меняется, общие точки соприкосновения становятся списком немедленных действий. Опять же, похоже, что GCG - это граф суперзнаний!

Обобщение

Многоуровневая модель представления позволяет предикатам быть обоснованными (окруженными в модели) их положением во времени и пространстве и любой применимой причиной. Обобщение происходит из многих источников, таких как опыт предикатов, выполняющих несколько функций, способность словоформ (знаков) связываться с более чем одним значением и предикаты, допускающие вариации в связывании.

Отправную точку для композиции предикатов можно увидеть с разнообразием способов связи референта. Оставляя в стороне сложность модалов, союзов и соединений, принципы остаются.

Обратите внимание на то, что на рис. 2 выше, значения фраз значительно различаются в зависимости от их «вспомогательного ключа» (вспомогательного, показанного на рис. 2). Как видно с точки зрения активного предложения, выбор вспомогательного слова при использовании «do» применяется к глаголам или их (в английском языке) объединенным формам - «did eat» можно интерпретировать как «ate», а «do / does» - ест. может быть «есть / ест». Значение слова (морфология) и синтаксическое взаимодействие используются в другой раз, но пока обратите внимание, что «Сола - собака» относится к ее референтной категории, а «Сола - рыжевато-белый» относится к ее атрибутам. (цвет). Владения отличаются от других предикатов тем, что, хотя в слове have все еще используется вспомогательное слово do, его важность в дискурсе придает ему уникальное сокращение (например, John ) вместе с некоторыми полезными обобщениями (per qualia теория).

Специфическими для языка частями в языке являются слова (знаки) и словосочетания.

Слова (знаки) и их значение

Языки кажутся очень большими - много слов со сложными значениями, которые варьируются от предложения к предложению. И есть много способов объединить слова в фразы, придавая другой фокус (например, «Это женщина поцеловал мужчина» с акцентом на «женщину» по сравнению с «Это мужчина , который поцеловал женщину », сосредоточив внимание на« мужчине »). Обратите внимание, что оба предложения означают «одно и то же» (в прошлом мужчина-поцелуй-женщина), но выбранные фразы различаются по контексту.

Мой анализ показывает, что языки легко создают большое количество фраз, порядка 10³⁰⁰⁰ для ограниченного движения на английском языке (см. Здесь) до гораздо большего количества уникальных фраз для простых систем. Следовательно, модели данных, в которых используется около 10 квадратных слов, не приближаются к масштабу реального человеческого языка.

Когда мы добавляем соединения или соединения RRG, числа фактически прыгают до бесконечности. «Я хочу X», где X может означать состояние «быть высоким» или «бегать» или соединение «быть высоким и бегать». Или еще что-нибудь: «Я хочу выглядеть высоким».

Языки - это комбинаторные системы. В предложениях слова можно заменять длинными фразами и наоборот, но каждая составляющая сохраняет исключительную точность. RRG демонстрирует, как три взаимодействующих элемента - морфосинтаксис и семантика в рамках прагматики дискурса - активируют алгоритм связывания. На практике это означает, что многие предложения могут быть сгенерированы с одной и той же семантикой (одним и тем же значением), но с разными свойствами дискурса, как в приведенном выше примере фокуса.

Нам нужны основы для хранения знаний, которые должны быть чрезвычайно точными, чтобы конечные результаты имитировали человеческий мозг.

В нашей модели мы используем трехслойную семиотическую модель. Языки изучаются, что позволяет связать знаки (каждый из которых содержит свои потенциальные значения / смыслы) с предикатами или референтами, которые мозг распознает посредством мультисенсорного распознавания образов. Затем, когда предложение проходит через алгоритм связывания RRG, дополнительная проверка (ограничения полноты, ограничения выбора) обеспечивает уровень согласованности до проверки контекста. Примеры разложения еще больше сокращают возможные комбинации.

Принципы, подобные обсуждаемым здесь, кажутся эффективными, делая возможным изучение огромного количества человеческих языков.

Например, мы можем проиллюстрировать декомпозицию на английском языке. Слово «двигаться» можно выразить произвольно (например, хромая): «он перешел на кухню» против «он перешел на кухню, хромая» против «он хромал на кухню ». Если существовал язык, в котором не было возможности использовать комбинированное «движение путем хромания», он все равно может работать со вторым элементом в приведенном выше списке. Мое личное использование английского языка в основном использует выбор третьей фразы.

RRG выделяет еще одно интересное свойство языков, которое объясняется с помощью «операторов». Например, в английском языке сказуемое в предложении не всегда является глаголом. «Джон счастлив» представлен одноролевым предикатом «счастливый» и его аргументом «Джон». Что «делает»? Он обеспечивает оператор времени - настоящее время - и лицо и число - третье лицо единственного числа. «Is» также является частью синтаксического шаблона английского языка.

SKG, конечно же, должен знать время, аспект и модальность, чтобы точно записывать контекст. Представление знаний в «графе суперзнаний» будет включать в себя наборы операторов на соответствующих уровнях для завершения описания.

III. Представление

Теперь представление смысла можно отделить от слоя контекста (прагматика дискурса), который действует как компьютерный интерфейс. Репозиторий предикатов и референтов может хранить значение в человеческой манере, не беспокоясь о деталях выбора слова в контексте, поскольку он представляет собой независимый от языка.

В реализации многослойная модель не должна быть физически многослойной или иметь более двух измерений. Есть много возможных оптимизаций. Например, каждый элемент в представлении предложения будет иметь свою собственную значимую категорию (временные элементы, такие как «сегодня», отличаются по категории от таких местоположений, как «там» или таких референтов, как «вы»). Категория сохраненного элемента может использоваться для идентификации слоев, даже если элементы хранятся в одном наборе, поскольку категория элемента может определять слой напрямую. Например, если это временный элемент или элемент местоположения, а не аргумент, он должен находиться на уровне вне ядра.

Граф суперзнаний (т. Е. GCG)

Целевой результат - создать хранилище значений - «общую основу», которая обеспечивает основу знаний для любой будущей системы. Это означает, что при условии, что мы можем преобразовать исходное предложение в его возможные значимые элементы, SKG имеет достаточно информации, чтобы понять, какие интерпретации являются правильными в контексте (NLU). Это также означает, что значения SKG достаточно для генерации действительного ответа в контексте, при условии, что мы можем преобразовать значение в действительный ответ на целевом языке с помощью генерации естественного языка (NLG).

В прошлый раз мы увидели, как граф знаний должен быть основан в своем контексте - где знания были получены, кто еще их испытал, где вы были и так далее. Это основа непосредственного общего основания (с использованием проформ для простоты) во время текущего общения, которое становится общим общим основанием (без проформ) для будущих ссылок.

На рисунке 3 вы можете видеть, что зеленая область представляет конкретные и общие элементы теории патома, включающие значение языков и дополнительные части, которые связаны с нашей способностью просто ссылаться на текущие темы (проформы, такие как местоимения «я», «вы», « then »и« there », что снижает потребность в повторении более длинных описательных фраз).

Слева показано взаимодействие бессмысленных знаков (сегодня в центре внимания встраивания слов и БЕРТОЛОГИИ). Извлеченное неоднозначное значение передается через текущий контекст (непосредственная общая основа) для разрешения проформ, а затем для сохранения однозначного значения в контексте (общая общая основа).

Когда мы говорим о NLU, Святым Граалем было создание этого точного хранилища для хранения всего. Лингвистические теории, такие как RRG, подчеркивают эти функции при моделировании человеческого языка. Целью остается хранение мировых книг, рассказов, статей, бесед и так далее, чтобы будущие поколения могли получить к ним доступ, обобщить и использовать для нашей пользы.

IV. Примеры: представление графа знаний

Граф знаний, с принятием смысловых значений слов, обеспечивает эффективное, независимое от языка хранение в качестве основы для обобщения. Сегодняшним ИТ-системам также необходимо включать контекст, описанный в прошлый раз, чтобы начать воспроизводить контекст, подобный человеческому.

Давайте проанализируем эти предложения, чтобы оценить результаты, основанные на значении:

  1. Синяя лодка проходит красный маркер.
  2. Лодка не пострадала от удара маркером.
  3. Это была красная фуражка, упавшая с маркера в лодку.
  4. Водитель, высокий мужчина, заболел.

Обратите внимание, что диаграммы исключают полные детали, такие как контекст высказывания, время, аспект и полярность.

Пример 1: Синяя лодка пересекает красный маркер.

Здесь у нас есть фраза «синяя лодка», что означает «лодка (та) синяя». Обратите внимание, что это отвечает на вопрос: «Какого цвета лодка?» и поэтому лучше всего хранить его в контексте как форму предиката, а не в сжатом виде внутри фразы. У нас есть операторы «единственное число», «настоящее время», «прогрессивный аспект», «третье лицо». Предикат имеет значение «прохождение» (здесь мы разлагаем предикат на движение плюс элемент RRG, «манера», что переводится как «движение мимо проходящего»). «Красный маркер» - это фраза, означающая «маркер (который) красный». Итак, теперь мы можем представить предложение как контекст:

  • Лодка синяя (лодка - она)
  • Маркер красный (маркер - он)
  • Присутствует напряжение, вид прогрессивный, полярность положительная
  • Упрощенные отношения: движение (лодка) Λ path.past ’ (маркер, лодка).

Обратите внимание, что составные части предиката, сами предикаты в том смысле, что они связывают цвета, должны быть сначала разрешены и добавлены в контекст, а затем может быть разрешено и добавлено полное предложение.

Магия RRG сосредоточена на связывании слов с фразами со смыслом в контексте и обратно. Этот процесс не рассматривается в этой статье, поскольку вместо этого мы смотрим на окончательное представление всего, что мы можем сказать на языке.

Пример 2: Лодка не была повреждена от удара маркером.

В этом предложении используется тот же подход, что и в предыдущем случае, но обратите внимание, что «лодка» определяется как известная в контексте, поэтому она имеет то же представление («синяя лодка»). Это контрастирует с «лодкой», которая не была бы тем же референтом.

«Влияние маркера» интересно узнать. Во-первых, «маркер» также является референтом, уже известным в контексте, например «лодка». Но у нас есть «воздействие», которое известно как номинальная форма сказуемого. Это означает, конечно, что предикат «влияние», и в номинальной форме его синтаксис добавляет аргументы, как и любой референт (например, влияние «из» на что-то «на» / » с 'кем-то) или, возможно, в качестве предиката (например, рейс в Нью-Йорк).

Воздействие - это 2-ролевой предикат, причем 1-ролевой указывается - с «маркером». Есть только 1 другой активный референт в контексте, «лодка», который действителен для этого предиката. Поскольку цель языка состоит в том, чтобы общаться (существует общий лингвистический принцип для решения этой проблемы), и поскольку нет известного конкретного аргумента, мы предполагаем, что говорящий намеревается предположить, что «лодка» произвела удар.

Неповрежденный - это атрибутивный предикат с одной ролью (предикаты, которые непосредственно изменяют референты, представляют собой специальный класс, известный как модификаторы), тесно связанный с полным предикатом «повреждение», который является причинным предикатом с двумя ролями. Здесь отношения между формами «поврежден», «неповрежден», «поврежден» и «поврежден» относятся к одному значению слова, например, «р: повреждение». В таблице ниже вы легко понимаете значение различий как англоговорящий. Обратите внимание, как одно значение формирует ряд интерпретаций в предложениях.

Причинные формы происходят из 2-ролевой версии предиката и порождают такое представление, как «лодка» ПРИЧИНАЕТ «маркер поврежден».

«By» в «неповрежденном» расширяет предикат, добавляя его «средства». Что вызвало «неповрежденный» (НЕ поврежденный)? Это был «удар по маркеру». Ниже мы соберем весь контекст.

  • Лодка (тот же референт)
  • Воздействие на маркер - «что-то попало в маркер» (удар)
  • Неповрежденный (предикат = НЕ поврежден) аргумент = «лодка»
  • Упрощенные отношения: [столкновение (лодка, маркер)] ПРИЧИНА [НЕ повреждено (лодка)]

Пример 3: Это была красная кепка, упавшая с маркера в лодку.

В этом предложении показано строение расщелины на английском языке. Его основная функция - поместить «красную шапку» в узкую область, описываемую информационной структурой в лингвистике (часть прагматики дискурса). С помощью этого простого шаблона можно выделить большинство элементов предложения. Здесь я проигнорирую это и сосредоточусь на его значении - «красная шапка упала с маркера в лодку».

Движение - это хорошо описанная категория предикатов английского языка. Есть много манер с их собственным глаголом (летать, ползать, ходить, хромать), а также довольно много средств (автобус, езда на велосипеде,…). Поскольку движение описывает изменение положения, его предикат позволяет расширить значение, чтобы указать источник движения, цель, путь, направление и цель. Два предиката - from и into определяют источник и цель соответственно.

Таким образом, контекст таков:

  • Маркер (тот же референт)
  • Лодка (тот же референт)
  • Предикат: «от маркера» означает НЕ СТАТЬ на месте » (маркер, крышка)
  • Предикат: «в лодку» означает СТАНОВИТЬСЯ в лодке (лодка, кепка)
  • Предикат: красный колпачок (новый колпачок для контекста), красный ' (колпачок) - новый референт - это колпачок.
  • Предикат: упала красная шапка - при использовании референта кепки в качестве актера, падение означает движение путем падения (снижение высоты под действием силы тяжести)
  • Полное значение согласно деталям выше - крышка снижает высоту, крышка больше не на маркере, теперь в лодке.

RRG определяет детали этих преобразований текста в значения на основе многолетнего анализа, проведенного носителями многих, многих языков. Сосредоточьтесь на строительных блоках, предоставляемых контексту для постоянного отслеживания, поскольку это цель NLU - запись значения языка без потерь.

Пример 4: Водитель, который был высоким мужчиной, заболел.

Есть несколько отношений, запрещенных историческими синтаксическими моделями, но совпадающих с лингвистикой RRG. «Водитель, который был высоким мужчиной» иллюстрирует значение альтернативного подхода к увязке.

Вы можете увидеть два компонента - (а) «водитель» и (б) вопрос «кто был высоким человеком». Это называется относительной фразой, но ее значение - это просто первая RP (RP похожа на именную фразу / NP, но, учитывая ее семантическую природу, отображается ссылка (R), а не часть речи (имя существительное)). В любом случае, фразы могут быть объединены для нового контекста (а) добавить «водитель» и добавить предикат «водитель был высоким человеком». Это классификационная фраза, ключевая фраза, используемая для изучения языка, поскольку она классифицирует «водитель» как своего рода «мужчину» (который «высокий»).

Вторая часть предложения «водитель заболел» похожа на атрибутивную форму, но «стал» добавляет изменение состояния - водитель не был болен, а затем водитель был болен.

Значение этой фразы:

  • Новый элемент контекста «высокий мужчина» с референтом «мужчина» и его предикатный контекст высокий » (мужчина)
  • Точно так же добавьте новый элемент контекста «водитель», у которого есть контекст be ’ (водитель, [высокий’ (мужчина)])
  • Теперь, чтобы дополнить значение: НЕ быть-болен (водитель) и быть-болен (водитель), что читается как «водитель не болел», а затем водитель был. Сокращенное обозначение перехода - СТАТЬ больным (водитель).

Как уже упоминалось, мы можем легко добавить любую из миллиардов «конкретных» фраз на английском языке, которые представляют вещи в нашу систему на лету (то есть изучение слов и фраз), при условии, что мы знаем, к какой категории это относится. А вот специальная английская конструкция, которая предоставляет именно эту информацию (определенный RP, который через предикат be соединяется с неопределенным RP, например, «кошка - это животное», или «летучие мыши - млекопитающие», или «это гамбургер Hungry Jacks»). »Или« это старый глушитель Holden »).

V. Заключение

Чтобы достичь первоначальной цели NLU по пониманию языка, нам нужно иметь дело с тем фактом, что для создания независимого представления необходимо иметь дело с парой обязательных шагов - преобразование синтаксиса в значения - затем разрешение слов в контекстных проформах - и затем устранение неоднозначности на основе контекста. Здесь я продемонстрировал хорошо известные лингвистические принципы, необходимые для преобразования предложений на языке в семантическое представление, основываясь на различиях, сделанных недавно в других моих статьях.

В сегодняшней статье основное внимание уделяется тому, как значение после того, как элементы предложения распознаны и к нему обращены непосредственные точки соприкосновения, попадает в независимую от языка репрезентацию. Такой репозиторий является «перспективным» в том смысле, что после его создания мы можем продолжать использовать его в будущем, не беспокоясь об изменениях в языке, поскольку знания не зависят от языка.

Концепция данных постоянно нарушается по мере того, как мы внедряем эти новые модели: повторное использование, простые расширения и многоязычность снизят стоимость этих систем, которые просто более точны. Системы, основанные на значениях, открывают долгожданную эру «сделай один раз».

Создание этих основанных на значении услуг обещает объединить людей, говорящих на разных языках, и сделать наши машины гораздо более ценными, чем они были раньше. Эта возможность позволит будущим системам беспрепятственно взаимодействовать на любом родном языке.

[I] Это введение в теорию Patom затрагивает широкий спектр областей, которые ИИ может подражать, предлагая, что хранение, сопоставление и использование шаблонов является правильным подходом. Болл, Джон, Машинный интеллект: смерть искусственного интеллекта, https://www.amazon.com/Machine-Intelligence-Death-Artificial-ebook/dp/B01E9NM1XM

[Ii] RRG стр.12 - показывает многоуровневую структуру предложения для любого человеческого языка, а стр.58 показывает пять тематических категорий аргументов, необходимых для связи предикатов в семантике: https://www.amazon.com/Exploring -Синтаксис-Семантика-Интерфейс-Роберт-Валин / dp / 052101056X

[Iii] https://plato.stanford.edu/entries/peirce-semiotics/ для ознакомления со знаками, интерпретаторами и объектами Пирса.

[Iv] https://arxiv.org/abs/1709.04558 содержит результаты исследования.

[V] Леда Берио и др., Непосредственные и общие точки соприкосновения, Springer International Publishing AG, стр. 633–646, 2017 г., DOI: 10.1007 / 978–3–319–57837–8_51.

[Vi] Аня Латруите (Университет Генриха Гейне, Дюссельдорф) и Роберт Д. Ван Валин, младший (Университет в Буффало), Специфические предикаты и расщепление, SFB 991, примечания к презентации c.2019.