Язык неоднозначен для эффективного общения

Известный когнитивный лингвист Т. Гивон однажды сказал, что «двусмысленность - не грех». Похоже, он был прав, что двусмысленность - гениальное (эволюционное) изобретение, на которое люди наткнулись для эффективного общения.

Недавнее исследование [2], в котором используется понятие энтропии Клода Шеннона в теории коммуникации [1], убедительно доказывает, что неоднозначность в естественном языке является необходимым механизмом для обеспечения эффективного общения. Для эффективной передачи мыслей (посредством языка) высказывания говорящего оптимально сжимаются (и, таким образом, «кажутся» весьма неоднозначными), полагаясь на тот факт, что слушатель обладает необходимыми фоновыми знаниями для «декодирования» сообщения.

Хотя в процессе декодирования со стороны слушателя прилагаются определенные усилия, эти усилия намного меньше, чем усилия, которые мог бы предпринять говорящий, чтобы сформулировать полностью однозначное сообщение, которое потребовало бы заполнения недостающих деталей (отсутствующего текста) - предоставления лингвистических сигналов. к предполагаемому синтаксическому анализу со всеми предполагаемыми вложениями PP, указывая на предполагаемые значения слов и т. д. Короче говоря, для говорящего более оптимально «сжимать» свое сообщение, а для слушателя использовать фоновые знания для декодирования сообщения, потом наоборот.

Результатом этого открытия является то, что в эффективной (лингвистической) системе коммуникации говорящие не передают, кроме «новых мыслей», любую ненужную (или избыточную) информацию - информацию, которую говорящий может с уверенностью предположить, что она доступна слушателю - короче говоря. , языковая коммуникация сильно (возможно, оптимально!) сжата. Этот вывод согласуется с «феноменом отсутствующего текста», обсуждаемым в [3] в контексте Winograd Schema Challenge. Идея состоит в том, что большая часть того, что мы называем мышлением в процессе понимания языка, связана с обнаружением текста, который мы склонны упускать в обычном дискурсе, текста, который мы считаем «восстанавливаемым», используя наши общие жизненный опыт.

Последствия: понимание языка требует наличия врожденных структур знаний.

Тот факт, что язык очень неоднозначен для эффективного общения, влечет за собой его высокую степень сжатия. Впоследствии это означает, что информация, не включенная в обычное общение, должна быть разделена и согласована: тот факт, что все мы, кажется, не учитываем один и тот же текст, обязательно означает, что говорящие и слушатели имеют некоторое согласие относительно фоновых знаний, необходимых для декодирования лингвистических сообщений ( в противном случае этот механизм не сработает, поскольку говорящий не может угадать, что знает определенный слушатель, но должен предполагать постоянный объем знаний, который доступен всем слушателям). Рассмотрим следующий пример:

(1)  A teenager shot a policeman but eyewitnesses said he managed to 
       a. escape.
       b. arrest him.

Говорящий, который произносит (1), может с уверенностью предположить, что пятилетний ребенок легко решит «он» с «подростком» в (1a) и с «полицейским» в (1b), поскольку говорящий может с уверенностью предположить, что слушатель знает следующий:

SHOT(x,y) => Plausibility(ESCAPE(x)) > Plausibility(ESCAPE(y))
             & Plausibility(ARREST(y,x)) > Plausibility(ARREST(x,y))

То есть говорящий может предположить, что любой слушатель имеет доступ к общеизвестным сведениям о том, что всякий раз, когда какой-нибудь x стреляет в какой-то y, более правдоподобно для x чтобы сбежать, чем на y, и для полицейского более правдоподобно попытаться арестовать стрелка, а не наоборот (обратите внимание, что с точки зрения вероятности возможны и другие варианты, и это возможно, но мы всегда знаем, какой из них более правдоподобен с точки зрения здравого смысла. Существует много работы над различием между "вероятным", "возможным" и "правдоподобным" и отношения между ними - но я могу с уверенностью предположить, что мы все согласны, что это не место для этого.)

Итак, вот где мы сейчас находимся:

  1. Наши лингвистические высказывания сильно сжаты с целью эффективного общения (мы склонны опускать всю информацию, которую мы можем с уверенностью считать доступной для слушателя).
  2. Поскольку все мы склонны опускать одну и ту же информацию, это обязательно означает, что мы все пользуемся этим хранилищем общих знаний - в противном случае мы не смогли бы прийти к согласию (или предположить) о том, что мы можем безопасно опустить.
  3. Из вышесказанного следует, что общий репозиторий знаний, который, как мы обычно предполагаем, не может быть изучен, поскольку, если он был изучен на примерах / опыте, он не будет `` общим '' и не будет использоваться совместно, поскольку разные пользователи сталкиваются с разными примерами и разным опытом. !
  4. Наконец, если общее хранилище знаний, которое мы обычно предполагаем в процессе языковой коммуникации, не изучено, то оно должно быть врожденным и полностью приобретенным после (что некоторые исследователи называют) некоторой «начальной загрузки».

Все это, как мы надеемся, должно сделать аргументы в пользу использования машинного обучения в понимании языка, по меньшей мере, под большим подозрением. Эти чисто ориентированные на данные подходы, которые не допускают необходимости в символических структурах знаний, также вызывают подозрение, поскольку они, похоже, не имеют ответа на простой вопрос: как может происходить «понимание» языка без какого-либо доступа к этому хранилищу общих знаний, которое кажется, подразумевается в нашем повседневном использовании языка, репозиторий, к которому мы должны иметь доступ, чтобы мы могли успешно декодировать сильно сжатые лингвистические сообщения?

Помимо всего вышеперечисленного, недавние результаты исследований, которые доказывают эквивалентность обучаемости и сжимаемости [4], также должны препятствовать машинному обучению как жизнеспособному подходу к пониманию языка. Эти результаты доказывают, что набор данных доступен для обучения тогда и только тогда, когда набор данных является сжимаемым, то есть если набор данных содержит избыточность. Этот результат не должен вызывать удивления, поскольку обучаемость заключается в том, чтобы взять множество точек данных и обобщить их в некоторую функцию / шаблон, который аппроксимирует весь набор (форма сжатия).

Но если обучаемость требует сжимаемости, и если обычный разговорный язык и для целей эффективного общения разработан так, чтобы он уже был сильно сжат, тогда обычный разговорный язык не может быть изучен.

Q.E.D.

Ссылки

  1. Шеннон, К. (1948). Математическая теория коммуникации. Технический журнал Bell Systems, 27, 623–656.
  2. Piantadosi, S. T., et. al. (2011), Коммуникативная функция двусмысленности в языке, Познание, DOI: 10.1016 / j.cognition.2011.10.004
  3. Саба, В. (2019), О схеме Винограда: положение понимания языка в континууме данные-информация-знания, FLAIRS-2019, AAAI Press (доступно здесь)
  4. Бен-Дэвид, С. и др. (2019), Обучаемость может быть неразрешимой, Nature (Machine Intelligence), Vol. 1 января 2019 г., стр. 44–48.

___________________
https://medium.com/ontologik