Как мы создали интеллектуальную систему обнаружения голосовой активности с использованием адаптивных пользовательских языковых моделей

Проблема

Цифровые помощники, боты и устройства, настроенные для взаимодействия с вашим голосом, должны знать, когда команда была произнесена полностью, чтобы обработать команду и обеспечить надлежащую обратную связь с пользователем.

Системы обнаружения голосовой активности (VAD) определяют, когда пользователь закончил говорить. Однако системы VAD не обращают внимания на реальные произносимые слова и вместо этого основывают свое определение на распознавании того, является ли анализируемый звук речью (в отличие от неречевого шума).

Немного предыстории: языковые модели

Формально, но без математики, мы можем определить языковую модель как функцию, которая определяет вероятность последовательности слов.
Не зная, что такое функция, представьте языковую модель как черный ящик, который принимает любую последовательность слов. слова в качестве входных данных и предоставляет число, которое описывает, насколько вероятно, что эта конкретная последовательность может произойти во время разговора на английском языке.

Можно использовать языковую модель, чтобы определить, является ли данное предложение законченным или нет.
Например, Предложение 1 является законченным предложением, а Предложение 2 - нет:

Кот побежал по улице.
Собака идет по берегу.

Текущее решение

Традиционные методы используют преимущества языковой модели, используемой в механизмах преобразования речи в текст, для определения того, является ли устное высказывание законченным предложением.

Время, необходимое для ожидания отсутствия речи (VAD_PATIENCE) перед обработкой высказывания, соответственно сокращается или удлиняется. Однако эти методы не принимают во внимание, что разные пользователи имеют разные способы ввода команд, и, прежде всего, они не адаптируются к общим предложениям / манере речи пользователя.

Гибкое и настраиваемое решение

При создании голосового интерфейса можно использовать сторонние механизмы преобразования речи в текст. Однако это решение не включает интеллектуальный VAD, который может настраивать VAD_PATIENCE, потому что языковая модель, используемая в стороннем преобразователе речи в текст, не может быть изменена / изменена.

Решение, которое мы придумали, состоит в том, чтобы включить настраиваемую языковую модель в клиент, чтобы каждый раз, когда пользователь вводит команды, языковая модель может формироваться вокруг области команд, на которые устройство, активируемое голосом, должно реагировать.

Современные языковые модели используют рекуррентные нейронные сети, а более портативные решения основаны на n-граммах и марковских моделях (например, предсказатель текста в мобильных телефонах). Наше портативное решение позволяет голосовому клиенту выполнять адаптацию локально, в то время как рекуррентная нейронная сеть может потребовать адаптации для работы в качестве отдельной службы.

Вывод

Можно реализовать интеллектуальный и адаптивный VAD даже при использовании сторонних служб преобразования речи в текст, которые не позволяют настраивать языковую модель. С точки зрения взаимодействия с пользователем диалог между устройством, активируемым голосом, становится более быстрым и удобным для пользователя. Время на обработку команд, выдаваемых пользователем, короче, и весь опыт улучшается, поскольку устройство используется и узнает, какие команды выданы.

О Cisco Emerge

В Cisco Emerge мы используем новейшие технологии машинного обучения, чтобы продвигать будущее работы.
Узнайте больше на нашем веб-сайте.