Введение в понимание естественного языка

Существует большой разрыв между нашими ожиданиями и реальностью в отношении искусственного интеллекта. Мы можем винить естественный язык. Освоить это сложнее, чем мы думаем.

Однако компьютер по-прежнему представляет собой послушного и мощного помощника, и мы хотим, чтобы он был умнее. Большое количество людей продвигает исследования благодаря всемирным соревнованиям или соревнованиям, например, Allen AI Science Challenge (цель которого - доказать, что ИИ может быть умнее восьмиклассника).

Один из самых известных примеров реалистичного интеллекта пришел от режиссера Стэнли Кубрика в его фильме 1968 года 2001: Космическая одиссея.

Насколько мы далеки от вымышленного помощника, подобного HAL-9000, способного помочь Дэвиду Боумену в его миссии? Как далеко мы от этого вымышленного помощника?

Давайте сравним HAL-9000 с SIRI (из диалога со Стивеном Колбертом в 2011 году о репортаже Colbert, американском телешоу).

HAL-9000 дает ощущение, что полностью схватывает ситуацию во всей ее сложности, тогда как Siri не понимает даже простого запроса… :-)

В информатике мы называем процесс понимания смысла предложения понимание естественного языка (NLU).

Пример: Следует ли мне сегодня взять зонтик? = ›Будет ли сегодня дождь?

Он отличается от Обработки естественного языка (NLP), который представляет собой процесс определения грамматической роли каждого слова в предложении и их отношений.

Пример: / DT man / NN, который / WP дал / VBD Bill / NNP деньги / DT / NN.

Давайте начнем с краткой истории NLU, а потом мы увидим основные проблемы, связанные с этой областью искусственного интеллекта.

Краткая история NLU

● 1950-е годы: начало NLU.

Тьюринг обратился к проблеме искусственного интеллекта и предложил эксперимент, который стал известен как тест Тьюринга, попытку определить стандарт для машины, которую следует назвать «интеллектуальной».

Вначале разработчики оценивали ввод пользователя с помощью нескольких правил сопоставления с образцом.

Пример: если «Hello ‹-VARIABLE-›», то привет.

● 1970–80-е годы: лингвисты начали «программировать».

Специалисты по лингвистике начали вносить свой вклад в NLU, «кодируя» все грамматические и семантические правила. Это привело к созданию реалистичного программного обеспечения, такого как:

ШРДЛУ

ЧАТ-80

Оба были богаты лингвистикой и руководствовались логикой.

Мы можем быть более критичными и сказать, что вопросы исходили из песочницы простых вопросов, но это было 35 лет назад.

Одной из самых больших проблем в то время была грамматическая интерпретация предложения (НЛП). Уровень ошибок был важен.

● 1990–2015: статистическая революция в обработке естественного языка.

Статистическая революция в обработке естественного языка привела к сокращению исследований NLU:

Большинство моделей НЛП теперь включают то, что сегодня называют «машинным обучением». Это вероятностная модель. Чем больше данных вы даете, тем эффективнее модель. Сегодня результаты просто потрясающие: мы можем обработать предложение с точностью более 98%.

Каковы основные проблемы NLU?

Прежде всего, NLU - неблагодарная сфера, мы должны это признать: мы очень требовательны, когда дело касается понимания и знаний компьютеров.

Действительно ли нам сегодня нужен персональный робот, с которым мы можем вести философскую дискуссию? Или нам просто нужно автоматизировать повседневные задачи, например, создание списка покупок?

Технически есть две основные проблемы:

У нас есть несколько способов выразить одну и ту же идею.

Пример. Когда вы хотите записаться на прием к врачу, вы можете сказать:

● Мне нужно записаться на прием.

● Мне нужно обратиться к врачу.

● Когда врач свободен?

● Мне нужно продлить рецепт.

● Как вы думаете, доктор мог бы меня сегодня втиснуть?

● Мне нужно записаться на прием к мужу.

● Моему ребенку нужно пройти обследование.

● Врач хочет снова увидеть меня через две недели.

● …

Чтобы попросить о «рандеву», вы можете сделать это несколькими способами.

Чтобы понять все предложение, мы должны связать множество понятий, создавая ассоциации между словами. (по рецепту ‹=› врача ‹=› насморк ‹=› осмотр)

Все эти слова подводят нас ко второй главной проблеме.

Слова и предложения зависят от контекста.

Но прежде всего нам нужно определить, что такое контекст: мы можем сказать, что это что-то, что помогает нам понять что-то еще, будь то текст, шутка, событие ...

Другими словами: контекст - это обстоятельства того, что что-то происходит.

Это может быть история, которую проживают два человека из группы из десяти человек (личная шутка), которая может создать для них обоих особое значение, отличное от того, которое понимают остальные участники группы.

Это также может зависеть от ситуации.

Возьмем пример: если вы где-то прочитали «… и бекон», что означают эти два слова?

Мы начинаем с первого слова «и», оно определяет конец списка; Что касается второго слова «бекон», то это мясной продукт.

Подразумевает ли это заказ? Подразумевается ли это перечисление всех рецептов свинины? Подразумевает ли это заполнение списка покупок?

Мы не можем угадать смысл такого предложения без контекста. Это именно то, что мы ожидаем от компьютера.

На самом деле, я считаю, что мы не правильно подходим к проблеме.

Даже человек не может понять, что означает случайные слова без контекста, и единственный, кто может предоставить достаточно данных, когда он разговаривает с компьютером, - это пользователь, это не может быть основано только на «вероятностной модели».

Мы должны найти способ помочь разработчикам добавить больше интеллекта в свое программное обеспечение, и для этого каждый должен вносить свой вклад в искусственный интеллект.

Вместе мы преодолеем понимание естественного языка и создадим лучший искусственный интеллект!

Гаэтан ДЖУВИН - Recast.AI / @RecastAI

(Изначально этот пост был опубликован по адресу https://blog.recast.ai/natural-language-understanding)

Введение в понимание естественного языка

Краткая история NLU

Каковы основные проблемы NLU?

Вопросы по теме