Введение в понимание естественного языка

Автор Гаэтан ЮВИН — Recast.AI

Существует большой разрыв между нашими ожиданиями и реальностью в отношении искусственного интеллекта. Мы можем возложить вину на естественный язык. Что сложнее освоить, чем мы склонны думать.

Однако компьютер по-прежнему представляет собой послушного и мощного помощника, и мы хотим, чтобы он был умнее. Большое количество людей продвигают исследования благодаря всемирным вызовам или конкурсам, например, Allen AI Science Challenge (целью которого является доказательство того, что ИИ может быть умнее восьмиклассника).

Один из самых известных примеров реалистичного интеллекта появился у режиссера Стэнли Кубрика в его фильме 1968 года 2001: Космическая одиссея.

Насколько мы далеки от вымышленного помощника, похожего на HAL-9000, способного помочь Дэвиду Боумену в его миссии? Как далеко мы от этого вымышленного помощника?

Давайте сравним HAL-9000 с SIRI (из диалога со Стивеном Колбертом в 2011 году на американском телешоу Colbert report).

HAL-9000 дает ощущение, что он полностью схватывает ситуацию во всей ее сложности, тогда как Siri не понимает даже простой просьбы… :)

В компьютерных науках мы называем процесс понимания смысла предложения пониманием естественного языка (NLU).

Пример: Должен ли я взять зонтик сегодня? =› Сегодня будет дождь?

Он отличается от обработки естественного языка (НЛП), которая представляет собой процесс определения грамматической роли каждого слова в предложении и их отношений.

Пример: The/DT man/NN, который/WP дал/VBD Bill/NNP the/DT money/NN

Давайте начнем с краткой истории NLU, а затем мы увидим, каковы основные проблемы, связанные с этой областью искусственного интеллекта.

Краткая история понимания естественного языка

1950-е годы: начало НЛУ.

Тьюринг обратился к проблеме искусственного интеллекта и предложил эксперимент, который стал известен как тест Тьюринга, попытку определить стандарт для машины, которую можно назвать «разумной».

Вначале разработчики оценивали ввод пользователя с помощью нескольких правил сопоставления с образцом.

Пример: если «Привет ‹-VARIABLE-›», то привет.

1970–80-е годы: лингвисты начали «кодировать».

Эксперты-лингвисты начали вносить свой вклад в NLU, «кодируя» все грамматические и семантические правила. Это произвело реалистичное программное обеспечение, такое как:

ШРДЛУ

ЧАТ-80

Оба были лингвистически богаты и логичны.

Мы можем быть более критичными и сказать, что вопросы пришли из песочницы простых вопросов, но это было 35 лет назад.

Одной из самых больших проблем того времени была грамматическая интерпретация предложения (НЛП). Частота ошибок была важна.

1990–2015 годы: статистическая революция в обработке естественного языка.

Статистическая революция в обработке естественного языка привела к сокращению исследований NLU:

Большинство моделей НЛП в настоящее время включают то, что сегодня называется «машинным обучением». Это вероятностная модель. Чем больше данных вы предоставляете, тем эффективнее модель.

Сегодня результаты просто поразительны: мы можем обработать предложение с точностью более 98%.

Каковы основные проблемы понимания естественного языка?

Во-первых, NLU — неблагодарная сфера, надо признать: мы очень требовательны к пониманию и знаниям компьютеров.

Нужен ли нам сегодня персональный робот, с которым можно вести философские дискуссии?

Или нам просто нужно автоматизировать повседневные задачи, например, составить список покупок?

Технически есть две основные проблемы:

У нас есть несколько способов выразить одну и ту же мысль.

Пример: когда вы хотите записаться на прием к врачу, вы можете сказать:

Мне нужно записаться на прием.
Мне нужно к врачу.
Когда врач свободен?
Мне нужно продлить мой рецепт.
Как вы думаете, доктор смог бы втиснуть меня сегодня?
Мне нужно записаться на прием к мужу.
Моему ребенку необходимо прийти на осмотр.
Доктор хочет увидеть меня снова через две недели.
…

Чтобы попросить о "рандеву", вы можете сделать это несколькими способами.

Чтобы понять предложение целиком, мы должны связать воедино множество понятий, создав ассоциации между словами. (рецепт ‹=› врача ‹=› насморк ‹=› осмотр)

Все эти слова подводят нас ко второй основной проблеме.

Слова и предложения зависят от контекста.

Но прежде всего нам нужно определить, что такое контекст: можно сказать, что это то, что помогает нам понять что-то еще, будь то текст, шутка, событие…

Другими словами: контекст – это обстоятельства происходящего.
Это может быть история, прожитая двумя людьми из группы из десяти человек (частная шутка), которая может создать для них обоих определенный смысл, отличный от одного понимают остальные члены группы.

Это также может зависеть от ситуации. Возьмем пример: если вы где-то прочитали «… и сало», что означают эти два слова?

Начнем с первого слова «и», оно определяет конец списка; что касается второго слова «бекон», то это мясной продукт.

Означает ли это что-то заказать? Подразумевает ли это перечисление всех рецептов свинины? Подразумевает ли это заполнение списка покупок?

Мы не можем угадать смысл такого предложения без контекста. Это именно то, что мы ожидаем от компьютера.

На самом деле, я думаю, что мы не подходим к проблеме с правильного пути.

Даже человек не может понять, в чем смысл случайных слов без контекста, и единственный, кто может дать достаточно данных, когда он разговаривает с компьютером, — это пользователь, это не может быть основано только на «вероятностной модели».

Мы должны найти способ помочь разработчикам добавить больше интеллекта в свое программное обеспечение, и для этого каждый должен внести свой вклад в искусственный интеллект.
Вместе мы взломаем понимание естественного языка и создайте лучший искусственный интеллект!

Это отличное вводное руководство по NLU было написано Гаэтаном Джувином из Recast.AI.

Recast.AI — это платформа для совместных ботов, на которой вы можете создать своего собственного диалогового бота.

Спасибо команде Recast.AI за то, что поделились своим введением в NLU в нашей публикации.

Первоначально опубликовано на blog.recast.ai

Введение в понимание естественного языка

Краткая история понимания естественного языка

Каковы основные проблемы понимания естественного языка?

У нас есть несколько способов выразить одну и ту же мысль.

Слова и предложения зависят от контекста.

Вопросы по теме