Хомская революция в языке привела к расширению математических и формальных логических моделей в области языка. Если язык можно сконструировать как систему формальных правил, то эти правила могут быть представлены компьютерной системой, открывая тем самым дверь искусственному интеллекту и безграничным аналитическим возможностям. Первоначальные попытки сделать это рассматривали язык как набор токенов с определенными допустимыми конфигурациями, управляемыми четко определенной грамматикой.

Хотя это согласуется с некоторыми нашими интуитивными представлениями о том, что представляет собой язык, при ближайшем рассмотрении выясняется, что оно не может быть полностью точным. Мы все знаем, что границы, определяющие, что является приемлемым, а что нет в английском языке, не всегда четко определены. Возьмем слово, которое было добавлено в Оксфордский словарь английского языка 15 июня 2006 года: «google». Ясно, что лексикон не является статическим набором. Или возьмем диалекты в сообществах меньшинств: хотя официальные учебники могут считать их неприемлемыми, потенциально они так же семантически жизнеспособны, последовательны и нормализованы, как и более распространенные варианты.

Даже если вы исследуете утверждение на теоретическом уровне, становится ясно, что язык не может быть конституирован просто определенным набором четко определенных правил. Ибо из чего вообще может состоять «Язык», если не из того, что его носители обычно считают действительным? То, что существуют правила, которые редко нарушаются, или что существует укрепленный корпус с чрезвычайной общностью, не противоречит вероятностной модели. Эти экземпляры просто будут иметь весовые коэффициенты вероятности, равные или близкие к 1.

Структурная и семантическая достоверность

Вероятностные модели могут учитывать выбор синтаксического разбора, когда доступно несколько интерпретаций. Например, во фразе «старый человек» кажется более вероятным, что старый следует сгруппировать с человеком, чем с «тот». Однако, если бы полное предложение было «старик с лодками», последнее было бы правильной группировкой. Но поскольку это необычно, вероятность (особенно байесовский вывод) объясняет нашу способность исходить из предположения, что первая интерпретация верна.

Один из способов, которым вероятностные модели объясняют, почему определенные показания предпочтительнее, основан на их структурной простоте. Классический пример — «девочка увидела мальчика в телескоп». На ум приходят два возможных прочтения: (а) девочка использовала телескоп, чтобы увидеть мальчика, или (б) мальчик был с телескопом, и девочка видела его в него. Мне кажется интуитивным, что первое прочтение является более простым и более вероятным — принцип минимальной привязанности может объяснить, почему у меня и, возможно, у вас есть эта интуиция.

В (а) и прямое дополнение (мальчик), и предложная фраза (с телескопом) присоединяются к глаголу (пил): мальчик — это то, что видно, а телескоп — это то, через что видно. Во втором чтении предложная фраза присоединяется к мальчику. Таким образом, древовидная структура немного сложнее (у нее глубина 3, а у первой — 2). По принципу минимальной привязанности первое, более плоское прочтение следует считать более вероятным.

Но есть и семантические соображения, которые не учитывает принцип минимальной привязанности. Для приведенного выше примера семантика любой интерпретации кажется примерно одинаково вероятной. Но рассмотрим «девочка увидела мальчика с книгой». В этом случае маловероятно, что девочка использовала книгу как вспомогательное средство для зрения. Таким образом, мы можем отбросить первую интерпретацию. Если бы вместо этого было предложение «девочка ударила мальчика книгой», то семантическая вероятность того, что книга является средством для удара, позволяет нам придать больший вес вероятности того, что глагол является правильной точкой прикрепления в данном случае.

Конечно, вероятностные модели также должны учитывать очень широкие контекстуальные соображения, если они хотят приблизиться к точному моделированию реальных человеческих разговоров. Большое внимание уделяется просто тому, будет ли произнесено высказывание, независимо от его семантической или структурной правдоподобности. Таким образом, сам факт того, что люди имеют ограниченные возможности обработки информации, сужает пространство возможностей до того, что разумно ожидать от людей.

Существуют также соображения по оптимальному исправлению ошибок: насколько легко исправить изначально неправильную интерпретацию. В случае, когда сразу легче распознать неверное предположение, иногда может быть безопаснее начать с него, поскольку его можно легко пересмотреть позже. В «Джон осознал свое…» далее может следовать какое-то предложение, например, «мать — бухгалтер, которая также проводит свободное время за рисованием». Возможности для структуры этого предложения безграничны. Но это также может быть что-то вроде «мечты и стремления». В этой интерпретации структурное пространство намного меньше. Следовательно, было бы легче восстановить исходное предположение второго случая, поскольку нарушения этой более строгой структуры распознаются быстрее. Ограничения, наложенные на первую структуру, менее строгие, поэтому может случиться так, что ошибку труднее распознать и исправить.

Бедность стимула и заключения

Хомский упомянул нечто, называемое бедностью стимулов, которая относится к удивительной способности детей изучать язык, несмотря на нехватку поучительных примеров, на которых можно было бы учиться. Вопрос о том, существует ли такая бедность на самом деле, вызывает ожесточенные споры в академических кругах. Одно из объяснений предполагает, что язык, развившийся вместе с нашим мозгом, приспособился к естественному усвоению, так что фонетика и синтаксис оптимально соответствуют более старым структурам мозга. Таким образом, проблема не в том, что ребенок должен искать все пространство решений вычислительным способом, чтобы учиться.

Вероятностные модели могут помочь решить некоторые проблемы, связанные с изучаемостью языков, даже если предположить, что бедность стимула является проблемой. Он делает это, позволяя обучаемости быть чем-то, к чему можно достаточно приблизиться, а не идеальным бинарным критерием.

На мой взгляд, хотя подход, основанный на правилах, имеет интуитивный отклик, кажется гораздо более вероятным, что вероятностные модели лучше подходят к реальности систем обучения и познания. Также кажется вероятным, что компьютеры смогут моделировать эти системы, возможно, с некоторой комбинацией правил и вероятностей.

Как обычно, теоретические рассуждения о языке резонируют с интуицией, которая довольно проста, но, тем не менее, удивительна: этот язык умеет общаться так, как это делает он. Как это возможно и какие возможности для общения существуют за пределами систем, созданных людьми? Ответы еще предстоит увидеть, но вскоре вы сможете просто спросить Siri.

Источники

  1. Вероятностные модели обработки и усвоения языка — https://www.sciencedirect.com/science/article/pii/S1364661306001318
  2. Символические виды — https://www.amazon.com/Symbolic-Species-Co-evolution-Language-Brain/dp/0393317544