Пятилетний ребенок, читающий предложение внизу рисунка выше, знает, что «это» относится к слону, а не к мячу; и именно потому, что ни один человек с элементарным здравым смыслом не задался бы вопросом, как мяч попал в дверь, но как через него прошел огромный слон, который больше, чем дверной проем.

К сожалению, увлечение наукой о данных / машинным обучением / глубоким обучением превратило науку о построении вычислительных моделей для истинного понимания и понимания обычного разговорного языка в проблему `` данных '' - проблему, которую можно решить, обработав гигабайты текста и попытавшись найти в данных некоторые закономерности.

Любая обработка текста / языка - это языковая обработка: взять кусок текста и вернуть количество токенов - это языковая обработка; взять отрывок текста и вернуть набор ключевых фраз (с использованием некоторой статистической техники) и т. д., но все они не имеют НИЧЕГО отношения к другой проблеме, заключающейся в том, что машины понимают / понимают мысли, стоящие за нашими языковая коммуникация. Короче говоря, НЛП и НЛУ - совершенно разные проблемы, и все попытки связать их с помощью диаграмм Венна (сделать одно подмножество другого или сделать их двумя пересекающимися множествами и т. Д.) Упускают из виду - НЛП и НЛУ - две разные дисциплины. - они такие разные.

Я уже упоминал об этом в другом месте, что сейчас существует множество так называемых «экспертов» по ​​обработке естественного языка (НЛП), которые никогда не слышали о многих головоломках понимания языка, таких как интенсиональность, номинальные соединения, неоднозначность области видимости, непрозрачные контексты и т. никогда не сталкивался с многовековыми работами таких авторов, как Готлоб Фреге, Бертран Рассел, Людвиг Витгенштейн, WVO Куайн, Рудольф Карнап и т. д., не говоря уже о таких мыслителях, как Ричард Монтегю, Джон Барвайз, Ганс Кемп, Джерри Фодор, Джордж Лакофф, Джерри Хоббс и т.д. Но на самом деле это, как бы глупо это ни звучало, является печальным положением дел: так называемые эксперты НЛП, единственный навык которых - знать, как вытащить библиотеку машинного обучения, обработать данные, обучить несколько моделей и т. Д. должна появиться система, которая «понимает» обычный разговорный язык. И волшебство произойдет только потому, что данные БОЛЬШИЕ, а модель ГЛУБОКАЯ. Но, конечно, никто из «больших» и «глубоких» все еще не может понять простую фразу, которую четырехлетний ребенок может легко произнести или легко понять. Настоящая проблема в том, что эта наивность характерна не только для новичков, охваченных ажиотажем в СМИ (и, кстати, исключающих из своей академической подготовки твердые научные основы!), Но она достигла так называемых экспертов НЛП ( те, которые создали и увековечили эту шумиху), включая некоторых современных рок-звезд искусственного интеллекта (изначальных сторонников всего «большого» и «глубокого»).

Меня беспокоит, в частности, NLU (с буквой «U»), то есть понимание естественного языка, а не языковая «обработка», поскольку я нахожу количество названных мест в фрагменте текста или количество слов, окружающих «яблоко» или количество раз, когда «Трамп» появляется в названии, или распределение и статистическая корреляция между «1–800» и «БЕСПЛАТНО» и т. д. - все это некая форма языковой обработки, но все это, теоретически, в одном и том же вычислительный класс, как нахождение в изображении количества пикселей, имеющих значение цвета RGB (220, 0, 117). Тот факт, что они состоят из английских (или других языков) символов, вторичен. Но понимание (и / или понимание) языка - это совсем другая проблема, и это не просто более способное или более мощное НЛП; на самом деле это другая область / исследование, требующее иных фундаментальных знаний помимо лингвистики, грамматики и тому подобного. Язык мыслится в буквальном смысле, и я бы даже предложил заменить NLU на HTU («понимание человеческой мысли»), чтобы отличать его от простой обработки текста.

Чтобы понять этот момент, примите во внимание следующее:

(1) Мяч не поместился в коричневый чемодан, потому что он был слишком
a. маленький
б. большой

4-летний ребенок (и один из моих друзей подтвердил мне, что его 2,5-летний сын тоже) без труда понимает, что если за (1) следовало (а), то «это» относится к чемодану, но ссылка на мяч, если за ним следует подпункт (b). Конечно, можно легко изменить эти предпочтения здравого смысла, изменив всего одно слово: например, замена «потому что» на «хотя» или «не сделал» на «сделал» или любая их комбинация полностью изменит «правдоподобие». пространство »с точки зрения здравого смысла. Если кто-то настаивает на том, чтобы рассматривать язык как символы («данные»), то количество комбинаций, влияющих на выбор того, что «он» относится к этому простому шаблону, превышает 40 миллионов (почти половина предложений, которые мы слышим всю свою жизнь. !). Так что обучение на основе данных и «обучающих» шаблонов - это просто нелепо. С другой стороны, 4-летний ребенок, даже если он слышал всего пару похожих предложений, ПОНИМАЕТ, что означает «это», потому что он знает, как эти объекты функционируют и как они соотносятся друг с другом в мире, в котором мы живем. в - короче, потому что в них есть здравый смысл. И вот еще одна (очень серьезная) проблема, которую так называемые эксперты по НЛП игнорируют (или даже не знают о ее существовании?). Рассмотрим ситуацию на картинке ниже:

В подходах к языку, основанных только на данных, можно легко изменить реальность и сделать ложные выводы, потому что заменив «16» в предложении «Я видел, как Мэри учила своего младшего брата, что 7 + 9 = 16», значением, равным ему (данные -удно), совершенно ложно; например, «Я видел, как Мэри учила своего младшего брата, что 7 + 9 = 16» - это не то же самое, что «Я видел, как Мэри учила своего младшего брата, что 7 + 9 = SQRT (256)». Хотя первое верно, второе - нет (да, в рассуждениях высокого уровня, которых требует понимание языка, ваш школьный учитель ошибался, а SQRT (256) = 16 не всегда верно!).

Короче говоря, и хотя синтаксический и семантический анализ текста может быть сложной задачей в НЛП, в Понимании естественного языка (NLU) это на самом деле тривиальная часть; серьезные проблемы в NLU связаны с осмыслением нашей метафизической реальности и ее онтологической структуры, а также с рассуждением и человеческим познанием в целом.

Если это не та наука, которая вас интересует, тогда есть чем заняться в обработке текста (классификация, фильтрация, поиск и т. Д.). Если вас интересует совершенно другая проблема понимания языка, то вам следует более глубоко оценить сложности NLU и то, что наиболее блестящие логики и учёные-когнитивисты работали несколько столетий, и они пройдут долгий путь. А затем, во что бы то ни стало, возьмите эти «большие» данные и сделайте все те «глубокие» вещи, которые вы так любите, и я, например, слежу за некоторыми из ваших открытий!

___________________
https://medium.com/ontologik