Обзор сущностей с машинным обучением Microsoft LUIS

Это важно, потому что в общей речи используются вложенные сущности и подтипы

Введение

Обнаружение сущностей, встроенных в высказывания пользователей, остается сложной задачей. Особенно, если вы хотите захватить объекты с помощью неструктурированных методов и по-настоящему разговорного.

Намерения можно рассматривать как глаголы, намерения пользователя. Вы можете думать о поиске Google как о самой большой машине обнаружения намерений в мире.

Сущности можно рассматривать как существительные. Если пользователь говорит: «Я еду на поезде из Парижа в Лиссабон…», тогда объектами будут: поезд, Париж и Лиссабон.

Конечно, для извлечения сущностей из одного или нескольких предложений можно использовать рудиментарные методы, в том числе:

  • Запрашивать пользователя для каждой сущности по отдельности, одну за другой. Независимо от того, сказал пользователь это уже или нет.
  • Используйте определение слов или регулярные выражения, чтобы найти или извлечь определенные слова. По мере роста данных это становится все более невозможным.

Но что делаем мы, люди?

Всякий раз, когда мы разговариваем, мы можем естественным образом и интуитивно извлекать объекты из высказывания.

Обычно мы используем два метода:

  • Контекстная осведомленность
  • Разложение

Контекст высказывания помогает нам найти сущность. Если клиент говорит: «Я хочу поехать в Петропавловск-Камчатский».

Даже если мы никогда не слышали об этом конкретном городе или городе, мы понимаем, что это сущность (существительное) города или, по крайней мере, место.

Поэтому мы используем контекст конкретного слова в предложении, чтобы узнать, что оно представляет.

Во-вторых, мы декомпозируем сущность. Мы не только знаем, что это город, но и знаем, что это подтип города назначения. В отличие от города отправления.

Аннотации сущностей

Процесс аннотирования — это способ идентификации объектов по их контексту в предложении.

Часто объекты имеют конечный набор значений, которые определены. Кроме того, есть объекты, которые не могут быть представлены конечным списком; как города в мире или имена, или адреса. У этих типов сущностей слишком много вариаций, чтобы перечислять их по отдельности.

Для этих сущностей необходимо использовать аннотации; сущности, определяемые их контекстуальным использованием.

И здесь на первый план выходит LUIS от Microsoft. LUIS предусматривает четыре типа объектов:

  • Узоры
  • регулярное выражение
  • Список
  • Машинное обучение

Сущности с машинным обучением — это область нашей заботы в этой статье.

Ниже представлено наше единственное намерение под названием Путешествовать с примерами высказываний. Вы увидите, что эти высказывания относительно сложны с несколькими сущностями на высказывание.

Мы могли бы разбить их на несколько намерений, чтобы упростить намерения. Однако LUIS позволяет нам создавать сложные объекты, упрощая тем самым процесс создания намерений.

Здесь вы можете увидеть аннотированные предложения с контекстно определенным объектом под названием Сведения о поездке.

Но вы можете видеть подтипы, определенные для каждой сущности, это говорит о декомпозиции сущности.

Разложение

Сущности с машинным обучением были представлены в LUIS в ноябре 2019 года. Декомпозиция сущности важна как для прогнозирования намерений, так и для извлечения данных с помощью сущности.

Начнем с определения одной сущности с именем:

  • Подробности о поездке

Внутри этой сущности мы определили три подсущности. Вы можете думать об этом как о вложенных объектах или подтипах. Определены три подтипа:

  • Временные рамки
  • Режим
  • Город

Отсюда у нас есть подтип для City:

  • Из города
  • В город

Это может показаться запутанным, но этот процесс чрезвычайно интуитивно понятен и позволяет естественным образом расширять диалоговые элементы.

Данные представлены в удобном для понимания формате. Управлять разговорной средой станет проще, чем раньше.

Теперь мы можем вернуться к нашему намерению и аннотировать новое высказывание. Только Из города еще нужно определить.

Вот примеры намерений, используемые для обучения модели с сущностью, подтипами и под-подтипами; полностью контекстуализирован.

Тестирование нашего интерфейса NLU

Теперь, когда наше намерение и объекты определены, обучите модель. Обучение занимает всего несколько секунд, после чего прототип можно тестировать.

Ниже введенное предложение: «3 августа я уезжаю из Парижа в Лиссабон на поезде». Я выбрал это предложение, так как оно немного отличается от примеров, которые я добавил к обучающим данным.

Результаты четко обозначены ниже.

Вывод

Одной из четких тенденций в коммерческих средах NLU является слияние или сближение намерений и сущностей. Эти два элемента больше не могут существовать полностью разделенными, и аннотирование сущностей в данных обучения намерений является прекрасным примером.

Возможность организации сущностей и компонентов группового общения с вложенными сущностями дает огромные преимущества.