Автоматизированные подходы к распознаванию речи и проблемы

Эта статья призвана дать представление об автоматическом распознавании речи с учетом возможностей, типов подходов, ограничений и мер.

«Способность распознавать речь так же, как это делают люди, является постоянной проблемой, поскольку человеческая речь, особенно во время спонтанного разговора, чрезвычайно сложна. Также трудно определить человеческую производительность, поскольку люди также различаются по своей способности понимать речь других. Когда мы сравниваем автоматическое распознавание с человеческими способностями, чрезвычайно важно учитывать обе эти вещи: производительность распознавателя и то, как оценивается человеческая производительность при воспроизведении одной и той же речи». Автор Джулия Хиршберг, профессор и заведующая кафедрой компьютерных наук Колумбийского университета

Статья изначально была опубликована в блоге Neurotech Africa

Развитие технологий значительно отличается от того, что было несколько десятилетий назад, когда искусственный интеллект пытался обеспечить эффективное взаимодействие между машинами и людьми через интеллектуальные системы.

Во многих сценариях мы продолжаем ускорять эволюцию к этому будущему сценарию удивительно быстрыми темпами благодаря продолжающемуся развитию так называемой технологии автоматического распознавания речи.

Что такое автоматическое распознавание речи?

Автоматическое распознавание речи, широко известное как ASR, относится к технологии, с помощью которой машина или программа разрабатываются для идентификации произносимых слов или фраз и преобразования их в текст или любой другой формат, который может быть прочитан машиной. Хорошо известными примерами являются скрытые субтитры YouTube, интерфейс Siri, интерфейс Google Assistant, Cortana, транскрипция голосовой почты, IBM Watson и т. д.

Голосовой искусственный интеллект проникает в различные аспекты нашей жизни, многие ищут способы улучшить обмен опытом, например, YouTube в наши дни, это лучший опыт, даже если вы не являетесь носителем языка, но просмотр чего-то с субтитрами облегчает работу по пониманию содержимого. учитывая, что люди говорят на одном языке на разных диалектах.

Технология скрытых субтитров в реальном времени — это ASR. Используя расширенный ASR, звуковая часть любого видео может быть расшифрована, даже когда создатель контента говорит, что позволяет легко добавлять скрытые субтитры в любое время и в любом месте, не прерывая работу создателя контента.

Почему ASR желателен для всех языков?

ASR способствует сохранению языков, находящихся под угрозой исчезновения, многие языки в настоящее время близки к исчезновению или им был присвоен статус исчезающих, поэтому, если у вас есть технологии, созданные для таких языков, это может способствовать сохранению таких языков.
Разработка естественных интерфейсов как для грамотных, так и для неграмотных людей упрощает взаимодействие с системами, поддерживающими технологию ASR.
Речь является основным средством человеческого общения, когда дело доходит до сравнения с набором текста на клавиатуре для общения, это громоздко, верно? Но также люди могут свободно говорить, а не печатать, даже иногда людям нравится освобождать руки во время разговора, но я не думаю, что это хорошая идея, когда речь идет о некоторых случаях, таких как вождение.

Какие подходы используются для разработки ASR?

Существует два распространенных подхода, используемых при разработке решений ASR:

Традиционный подход
Современный или глубокий подход к обучению

Традиционный подход:

Этот подход включает создание функций из звукового файла: для этого может потребоваться фильтрация и агрегация, а также выполнение преобразований в окнах, таких как преобразования Фурье и коннекционистская временная классификация (CTC). Затем следует применение акустической модели для сопоставления фонем, а в заключительной части применяется языковая модель, которая использует распределения вероятностей для предсказания слов из фонем, а затем последовательностей слов из фонем.

Преимущество разбиения задачи на эту форму конвейера состоит в том, что вы можете работать над каждой частью независимо, чтобы улучшить систему. Однако на практике это также является недостатком, поскольку в целом процесс может быть нестабильным и требует специализированных исследователей.

Подход «Современное или глубокое обучение»:

Цель этого подхода — заменить промежуточные шаги одним алгоритмом. Подход глубокого обучения достиг самых современных результатов в задачах транскрипции речи и заменяет традиционные методы, используемые в ASR. Это также проще, потому что требуется меньше шагов и не требуется столько знаний. Реализация этого подхода требует знания таких инструментов глубокого обучения, как PyTorch, Tensorflow, DeepSpeech и т. д.

Как это работает

Компьютерная программа преобразует речевой формат в спектрограмму — машиночитаемое представление аудиофайла из слов.
Акустическая модель очищает аудиофайл, удаляя любые фоновые шумы и нормализуя громкость. Здесь алгоритм разбивает очищенное (волновой файл) звуковое представление на фонемы (основные строительные блоки звуков языков и слов). )
Программное обеспечение автоматического распознавания речи использует статистическую вероятность при анализе фонем в последовательностях для вывода целых слов. Из последовательностей модель НЛП применяется к предложениям, чтобы понять смысл аудио, а затем разработать подходящий ответ и использовать преобразование TTS в ответ.

Каковы проблемы разработки ASR?

Независимо от того, какой подход используется, но в большинстве случаев решения ASR ограничены реальным человеческим взаимодействием, тем, как мы общаемся, и фактическими данными, используемыми для обучения ASR:

Стиль: способ общения людей варьируется в зависимости от ситуации, разговорная речь отличается от речи для чтения. Непрерывная речь отличается от отдельных слов. Кроме того, вы можете найти некоторые разговоры, в которых используются языковые смеси, такие как суахили и английский, наиболее известные как SWANGLISH.
Характеристики говорящего: в реальном мире скорость общения может быть выше, чем то, как обучаются машины, или даже акцент может различаться у говорящих на разных языках.
Окружающая среда: в этом случае давайте возьмем пример фоновых шумов или условий канала.
Особенности задания: Количество слов в словарном запасе и языковые ограничения.

Как измерить успех решения ASR?

Наиболее часто используемый метод измерения производительности автоматического распознавания речи — это использование Коэффициента ошибок в словах, более известного как WER, который представляет собой процент от числа правильно произнесенных слов. распознанные слова по модели ASR

Для академических задач с конкретными наборами данных возможен показатель WER, равный пяти процентам, но для реальных приложений приемлемым считается показатель WER, равный 10–20 процентам. Это связано с тем, что модели ASR обучаются на исторических наборах данных, которые могут не отражать современные голосовые данные. Еще одна проблема с некоторыми моделями заключается в невозможности обработки региональных акцентов, поскольку они могут быть обучены только голосам из одного и того же региона. Это особая проблема с некоторыми облачными службами ASR. Автор статьи altviz ASR.

Последние мысли

Мы не ограничиваемся тем, что видим полезность ASR только для преобразования речи в текст, поскольку его можно применять к различным аспектам, транскрипция может использоваться в других методах НЛП, включая Классификацию текста по различным категориям в зависимости от вариантов использования, Именованные Извлечение сущностей в тексте, таком как люди, места и организации, Понимание естественного языка при анализе смысла текста.

Следует иметь в виду, что искусственный интеллект учится на обучающих наборах данных, поэтому, когда некоторые входные данные отсутствуют, ASR не может точно проанализировать их речь. Учет разнообразия при разработке решений ASR для группы пользователей является важной частью построения эффективных решений.

Кроме того, конфиденциальность является еще одним важным камнем преткновения для широкого распространения ASR, принимая во внимание, что система ASR может использоваться в офисах, домах, транспортных средствах и даже магазинах или в любых условиях, которые предлагают удобство, зависит от того, доверяют ли потребители конфиденциальности своих данных. .

Заставить машины слушать нас — большое дело, несмотря на все сложности, проблемы и технические тонкости, технология ASR на самом деле сводится к одной простой цели — помочь машинам или компьютерам слушать нас. Выглядит просто или весело, но когда мы останавливаемся, чтобы подумать об этом, мы понимаем, насколько важна эта возможность на самом деле.