Этот блог относится к нашему техническому документу, принятому на Interspeech 2021, Чехия.

Проблема под рукой

Системы автоматического распознавания речи (ASR) не могут расшифровывать реальные звонки со 100% точностью. Ошибки вставки, замены и удаления отрицательно влияют на производительность систем машинного обучения для последующих задач, таких как обнаружение намерений и слотов, распознавание сущностей и классификация настроений.

Как мы можем разработать языковую модель, более устойчивую к ошибкам ASR и повышающую производительность последующих задач SLU?

Предлагаемая установка

Архитектура

Фонема, воспринимаемые отдельно звуковые единицы, представляет собой вспомогательную информацию, которая может быть извлечена из любых естественных речевых разговоров в дополнение к транскриптам ASR. В большинстве случаев коэффициент ошибок фонем (PER) намного ниже, чем коэффициент ошибок по словам (WER). Это означает, что фонемы более точно улавливаются в предсказанной последовательности, чем сами слова.

Мы предполагаем, что совместная языковая модель, обученная с помощью последовательности фонем и транскрипции ASR, могла бы изучить представление с учетом фонетики, устойчивое к шуму и ошибкам в транскрипции.

С этой целью мы предлагаем Phoneme-BERT, языковую модель в стиле , оптимизированную с помощью цель обучения для предсказания замаскированных токенов из транскрипции ASR и последовательности фонем.

Функция потерь

Чтобы обучить Phoneme-BERT, мы используем три функции потерь, как описано ниже:

  • Потеря ASR MLM: функция потерь, связанная с задачей моделирования замаскированного языка по токенам, принадлежащим транскрипту ASR.
  • Потеря MLM фонемы. Мы маскируем токены BPE в последовательности фонем и создаем поверх них задачу MLM. Эта функция потерь оптимизирует прогноз для задач MLM по фонемам.
  • Совместная потеря MLM. В дополнение к изолированным задачам ASR и Phoneme MLM мы объединяем последовательность ASR и фонем и случайным образом маскируем токены в любой последовательности. Задача модели - предсказать замаскированные токены, используя информацию с любой стороны.

Чтобы предсказать маркер, замаскированный в последовательности слов, модель может либо обращать внимание на окружающие токены слов, либо на последовательность фонем, побуждая модель выровнять представления слова и фонемы, тем самым делая представления слов более фонетическими.

Совместное моделирование слова и фонемы помогает модели использовать контекст фонемы, если контекст слова недостаточен для вывода замаскированной лексемы в последовательности слов и наоборот.

Наборы данных

Мы генерируем зашумленные данные как для предварительного обучения, так и для последующих задач. Предлагаемый метод дополнительно оценивается на реальных речевых данных (задача классификации настроений Observe.AI). Всего для предварительного обучения модели на наборе данных ASR используется около 200 тыс. Точек данных. Для создания корпуса ASR мы используем LibriSpeech и комбинацию обзоров Amazon и набора данных Squad.

Поскольку нам нужна расшифровка ASR, мы используем Amazon Polly для преобразования необработанных текстов в речь, мы добавляем окружающий шум и просодию для согласования данных с реальной речевой средой и конвертируем их обратно в расшифровку ASR с помощью Amazon Transcribe.

Для последующих задач мы используем SST-5 как набор данных классификации настроений, TREC как набор данных классификации вопросов и ATIS как набор данных классификации намерений. Мы следуем аналогичному конвейеру, чтобы создать версию ASR для последующих задач, чтобы оценить предлагаемую настройку.

Кроме того, мы также оцениваем эффективность предлагаемого метода по классификации настроений в реальном кол-центре (набор данных Observe.AI).

Генерация фонем

  • Используйте метод слушай-посещаем-заклинание (LAS) для обучения генератора фонем.
  • Сравните это с генерацией последовательности фонем прямо из расшифровки ASR с помощью Phonemizer tool

Мы публикуем наборы данных в нашем пространстве Github для использования в будущих исследованиях: https://github.com/Observeai-Research/Phoneme-BERT

Полученные результаты

Сравнение с моделью RoBERTa по умолчанию

Модель RoBERTa, обученная на чистых текстовых данных на английском языке при использовании в качестве базовой языковой модели, показала себя на 5% хуже, чем предложенная модель, и ухудшилась на целых 15% по сравнению с производительность модели на чистом тексте.

Сравнение с моделью RoBERTa, настроенной непосредственно для последующей задачи

Это один из естественных вариантов эксперимента, особенно когда базовый корпус ASR недоступен для предварительного обучения модели с помощью общих транскриптов ASR. Эта настройка повышает производительность на 1-2% по результатам F1 для наборов данных по сравнению с предыдущим методом.

Влияние совместных тренировок

Предлагаемый PhonemeBERT работает на 6% лучше, чем модель RoBERTa, которая напрямую настраивается на последующую задачу. Кроме того, модель, обученная только с использованием транскрипции слов (ASR), работает ниже, чем PhonemeBERT на до 2,5% F1. Это показывает, что:

  • предварительное обучение модели на корпусе ASR является важным ингредиентом
  • предварительное обучение совместно с ASR и транскриптами фонем дополнительно повышает производительность системы, предполагая, что предлагаемый метод лучше приспособлен для обработки ошибок / шумов ASR

Использование PhonemeBERT в нисходящей установке с низким уровнем ресурсов

Это практическое препятствие для отсутствия доступа к выходам фонем во многих стандартных системах ASR.

Основываясь на наших оценках в рамках этого ограничения, мы заметили, что если мы будем использовать предварительно обученный кодировщик Phoneme-BERT с только входными транскриптами ASR для последующих задач, мы все равно будем получить улучшение по сравнению с моделью, состоящей только из одного слова, на 2,5%. F1.

Это указывает на то, что представления фонем-BERT фонетически осведомлены, и даже при отсутствии явных входов фонем в последующих задачах модель способна превзойти модель классификации, состоящую только из слов.

Выводы и выводы

  • Phoneme-BERT: метод для совместного моделирования транскриптов ASR и последовательностей фонем с использованием предварительной настройки на основе BERT.
  • Результаты показывают, что совместная языковая модель в Phoneme-BERT может использовать последовательности фонем в качестве дополнительных функций, делая ее устойчивой к ошибкам ASR.
  • Предварительно обученный PhonemeBERT можно эффективно использовать в качестве кодировщика только слов в последующей настройке с низким уровнем ресурсов, когда последовательности фонем недоступны, по-прежнему обеспечивая лучшие результаты, чем языковая модель, состоящая только из слов .
  • Мы также выпускаем наши сгенерированные наборы данных, используемые в работе для исследовательских целей: https://github.com/Observeai-Research/Phoneme-BERT