VOiCES на Speech Odyssey 2020: достижения в области встраивания динамиков

В сотрудничестве с Майклом Ломницем

На Speech Odyssey 2020 IQT Labs спонсировала специальную сессию по приложениям VOiCES, набора данных, предназначенного для акустически сложных и реверберирующих сред с надежными метками и достоверными данными для транскрипции, шумоподавления и идентификации говорящего. В следующих двух сообщениях блога мы рассмотрим документы, принятые на эту сессию.

Следуя общей теме Speaker Odyssey, принятые документы были сосредоточены на повышении устойчивости систем проверки громкоговорителей (SV) в отношении шума окружающей среды и реверберации. Проверка говорящего (также называемая аутентификацией говорящего) - это задача определения того, произнес ли сегмент речевого звука или высказывания конкретное лицо (целевой говорящий). Таким образом, SV представляет собой проблему бинарной классификации, и производительность может быть охарактеризована с точки зрения частоты ошибок типа I и типа II, ложных отклонений и ложных приемов, соответственно, или визуально суммирована в виде графиков коэффициента ложного отклонения по сравнению с коэффициентом ложного принятия. для различных значений порога принятия решения, известного как кривые компенсации ошибок обнаружения (DET). В области биометрии обычно используются две статистики, чтобы свести информацию кривой DET к скалярной метрике производительности:

Равная частота ошибок (EER): пересечение кривой DET с диагональю или значение коэффициента ложного отклонения и коэффициента ложных ошибок, когда они равны.
minDCF: Функция стоимости обнаружения (DCF) представляет собой взвешенную сумму уровней ложного отклонения и принятия, где каждая скорость взвешивается с учетом предписанного штрафа за этот тип ошибки и вероятности присутствия / отсутствия целевого говорящего. minDCF - это значение DCF, когда порог принятия решения установлен оптимально. См. Здесь (раздел 2.3) для более подробного обсуждения.

Типичные независимые от текста системы проверки говорящего работают путем вычисления балла, который измеряет, насколько похоже высказывание на речевой звук, полученный от целевого говорящего, также известный как данные регистрации. Это выполняется в двух частях: интерфейсная часть, которая создает векторное представление высказываний переменной длины с фиксированной длиной, известное как встраивание говорящего, и внутренняя часть, которая вычисляет оценку между тестовым встраиванием и встраиванием данных регистрации, обычно с использованием Косинусное подобие. Таким образом, прогноз является установлением порога оценки. Однако для систем, которые предназначены для работы с множеством разных целевых говорящих и в различных средах, распределение баллов может сильно различаться в зависимости от говорящего и условий. Чтобы противодействовать этому, нормализация оценок используется для стандартизации распределения оценок между говорящими, обычно путем нормализации исходных оценок со статистикой оценки между внедрением теста / зачисления и встраиванием многих других целевых говорящих. Точно так же адаптация домена используется для сопоставления статистических данных между погружениями, произведенными в различных акустических условиях.

Сам интерфейс состоит из нескольких этапов, включая обнаружение голосовой активности, извлечение функций и сбор статистики. Недавние успехи в производительности стали возможны благодаря обучению глубоких нейронных сетей выполнению некоторых или всех этих шагов с использованием больших наборов данных высказываний с тегами говорящих, что обеспечивает глубокое встраивание говорящих. В этом посте мы резюмируем три статьи, принятые на эту сессию, посвященные методам улучшения глубокого встраивания спикеров.

Представления смеси для встраивания громкоговорителей

Первая статья Представление обучающей смеси для глубокого вложения говорящего с использованием внимания »Лин и др. обращается к этапу объединения статистики встраивания динамиков. Большинство систем встраивания говорящих, особенно те, которые включают глубокие нейронные сети, извлекают вектор признаков фиксированной размерности для каждого кадра (например, временного окна в спектрограмме) высказывания. Поскольку высказывания различаются по длине, длины этих последовательностей векторов признаков также будут различаться. Поскольку вложения говорящих являются элементами векторного пространства, в алгоритме обязательно должна быть точка, в которой последовательность функций уровня кадра сводится к вектору постоянной размерности, что называется объединением статистики. Многие современные (SOTA) системы проверки говорящих основаны на подходе X-вектор, который использует глубокие нейронные сети для извлечения признаков и выполняет объединение статистических данных путем объединения среднего и (диагонального) стандартного отклонения векторов признаков по ход произнесения.

Поскольку некоторые кадры в высказывании могут быть более различимы для говорящего, чем другие, предыдущие авторы предлагали дополнить подход X-вектора, используя внимание для взвешивания характеристик уровня кадра перед вычислением среднего и стандартного отклонения. Этот подход, объединение внимательной статистики (ASP), можно обобщить на случай множественных внимательных голов с отдельным средним и стандартным вектором отклонения для каждой головы. Лин и др. Утверждают, что многоголовый ASP сам по себе не создает более богатого представления с большим количеством голов внимания, и вместо этого предлагает модификацию, при которой оценки внимания нормализуются по головам на уровне кадра. После некоторой нормализации результирующие векторы среднего и стандартного отклонения, полученные на этапе объединения статистических данных, аналогичны параметрам компонентов модели гауссовой смеси с одним компонентом для каждой точки внимания. Они обозначают этот метод как объединение представлений смеси (MRP).

Авторы провели несколько экспериментов, чтобы продемонстрировать эффективность MRP по сравнению с ASP и X-вектором. Они используют архитектуру Densenet в качестве сети извлечения признаков для ASP и MRP, а также для объединения статистики базовых средних и стандартных отклонений. EER и minDCF оцениваются для каждого подхода на VoxCeleb1, VOiCES19-dev и VOiCES19-eval. Важно отметить, что для многоглавых ASP и MRP размерность векторов среднего и стандартного отклонения масштабируется обратно пропорционально количеству головок для более справедливого сравнения с точки зрения количества параметров. Они обнаружили, что почти во всех случаях MRP с тремя руководителями внимания работает лучше всего.

Кроме того, чтобы укрепить интуицию автора о том, что многоголовый ASP не использует должным образом дополнительные головы, они сравнивают производительность ASP и MRP на VOiCES19-eval в зависимости от количества голов. Они обнаружили, что ASP лучше всего работает с одной головкой, тогда как оптимальное количество головок для MRP - три.

Улучшение конвейеров для встраивания громкоговорителей

Вторая статья Глубокие вложения динамиков для распознавания говорящих в дальнем поле при коротких высказываниях »Гусева и др. исследует различные варианты архитектуры системы, функций потерь и предварительной обработки данных с целью повышения производительности систем SV как при удаленной речи, так и при использовании коротких высказываний. Они оценивают различные комбинации этих вариантов дизайна на тестовых наборах VOiCES и VoxCeleb как для полных высказываний, так и для высказываний, которые были сокращены до 1, 2 и 5 секунд, и приходят к нескольким выводам:

Выполнение озвученной активности с помощью модели на основе U-net, которая обучается от начала до конца, превосходит стандартную модель на основе определения энергии в популярном наборе инструментов автоматического распознавания речи Kaldi.
Увеличение данных повышает производительность. В частности, при добавлении шума и реверберации к чистым высказываниям важно применять реверберацию как к шуму, так и к речи.
Лучше выполнять извлечение признаков на уровне кадра с помощью нейронной сети на основе архитектуры ResNet, чем с помощью архитектуры X-vector, которая основана на нейронных сетях с временной задержкой. Это справедливо даже тогда, когда сеть X-векторов дополняется повторяющимися соединениями.
Характеристики акустического ввода большего размера увеличивают производительность. В частности, 80-мерные логарифмические энергии банка Mel-фильтров приводят к более эффективным моделям, чем 40-мерные частотные кепстральные коэффициенты Mel.
Тонкая настройка моделей SV на высказываниях с сокращенной продолжительностью снижает их производительность при полноразмерных высказываниях, поэтому существует фундаментальный компромисс в производительности между этими двумя областями приложений.

Улучшение выборочного встраивания

Последним документом, касающимся глубокого встраивания громкоговорителей, была Улучшение селективного глубокого встраивания громкоговорителей для проверки громкоговорителей Юнга и др. В то время как глубокое встраивание громкоговорителей привело к высокому качеству SV для речевых сигналов, записанных с близкого расстояния и в чистых условиях, их характеристики значительно ухудшаются для речи с реверберацией и окружающим шумом. В то же время системы, обученные компенсировать шумную и удаленную речь, хуже работают с чистой и закрытой речью, как мы сообщали в предыдущем сообщении в блоге об автоматическом распознавании речи. Кроме того, каждая новая предлагаемая система для встраивания громкоговорителей должна быть отдельно настроена и откалибрована для шумных высказываний. В свете этих опасений Jung et al. предложить две системы для улучшения встраивания громкоговорителей, которые удовлетворяют следующим трем требованиям:

Системы могут применяться к примерам высказываний, которые варьируются от близкого разговора до далекой речи и адаптируются к уровню присутствующих искажений.
Эти системы работают непосредственно с встраиваемыми системами, создаваемыми системами встраивания фронтальных динамиков, и рассматривают системы встраивания динамиков как модель черного ящика.
Архитектурная сложность и вычислительные затраты на вывод сведены к минимуму.

Для обучения и тестирования предложенных систем Jung et al. использовал набор данных VOiCES, потому что он содержит множество различных удаленных речевых высказываний, соответствующих заданному разговору (исходному), а исходные исходные высказывания также доступны для данных обучения / тестирования.

Первая система, которую они предлагают, - избирательное улучшение на основе пропуска соединения (SCSE), - использует две глубокие нейронные сети для выполнения адаптивного к искажению улучшения встроенных динамиков из внешнего интерфейса, представленного на рисунке как x. Первая сеть, SDDNN, обучается как двоичный классификатор, чтобы отличать исходные высказывания от удаленных. Вторая сеть, SEDNN, выводит «очищенную от шума» версию встраивания. Исходное вложение x умножается либо на результат SDDNN (во время тестирования), либо на двоичную исходную / удаленную метку (во время обучения) и добавляется к выходным данным SEDNN для получения расширенного встраивания x '. Чтобы стимулировать SEDNN вести себя как система шумоподавления, обучение включает потерю среднеквадратичной ошибки между x ' и либо x, если x получен из исходное высказывание или вложение соответствующего исходного высказывания, если x пришло из далекого высказывания. Наконец, вся система обучается с помощью категориальной кросс-энтропии, чтобы гарантировать, что расширенные вложения по-прежнему информативны в отношении личности говорящего.

Вторая система основана на структуре дискриминативного автокодировщика и обозначается как дискриминативный автокодировщик с селективным улучшением (SEDA). Вложенный вход x проходит через пару сетей кодера и декодера, производя реконструкцию y. Как и в SCSE, цель реконструкции для y зависит от того, является ли x вложением исходного или целевого высказывания. Кроме того, во время обучения y обучается различать говорящего с категориальной кросс-энтропийной потерей, хотя y не используется в качестве расширенного встраивания. Кодирование x, производимое сетью кодировщика, делится на два компонента: x ' и n, где x' - это расширенное встраивание, используемое во время тестирования, а n содержит информацию о мешающих переменных, таких как шум и реверберация. Распределение расширенных вложений x ’ упорядочено с помощью двух функций потерь, чтобы гарантировать, что встраиваются информация о говорящем и минимальная мешающая информация. Первая функция потерь, центральная потеря, штрафует среднее евклидово расстояние между вложением и средним вектором всех вложений, соответствующих одному и тому же говорящему. Второй регуляризатор, внутренняя потеря дисперсии, максимизирует среднее расстояние между внедрением и средним вектором по всем вложениям. В сочетании эти две функции потерь минимизируют внутриклассовую дисперсию и максимизируют межклассовую дисперсию.

Улучшенное встраивание x ’ регуляризовано с помощью двух функций потерь, чтобы гарантировать, что он содержит информацию о динамике и минимальную мешающую информацию: центральные потери и потери внутренней дисперсии.

Юнг и др. использовали слегка измененную версию архитектуры встраивания динамиков RawNet в качестве интерфейса встраивания для всех своих экспериментов. RawNet работает с необработанными сигналами, выполняет извлечение признаков с серией сверточных и остаточных слоев, а также выполняет объединение статистики со слоем стробированных рекуррентных единиц (GRU). Авторы выполнили обширную оптимизацию гиперпараметров для SCSE и SEDA и сравнили производительность двух систем с базовой линией, в которой используются вложения, произведенные RawNet без каких-либо улучшений. Кроме того, они экспериментируют с несколькими типами нормализации оценок и с объединением двух систем путем суммирования оценок встраивания. Они обнаружили, что нормализация и объединение оценок по z-норме приводят к оптимальной производительности.

Заключение

Хотя ни один из их подходов не соответствует современному EER на VOiCES, по сравнению с производительностью команд в Interspeech 2019 VOiCES from a Distance Challenge, достижение конкурентоспособных показателей на зашумленных данных без сложной предварительной обработки шумоподавления при одновременном сохранении производительности на чистых данных является непростой задачей. важно для систем, развернутых в реальном мире.

Системы проверки громкоговорителей, основанные на глубоком внедрении громкоговорителей, недавно продемонстрировали значительный прогресс в производительности. Однако, как показали все три статьи, рассмотренные в этом посте, различные варианты архитектуры, предварительной обработки данных и процедуры вывода могут сильно повлиять на работу системы проверки говорящего в присутствии шума. Для разработки надежных систем требуются данные, отражающие реальные условия, в которых они будут развернуты, например набор данных VOiCES. Мы рады видеть, как достижения в области глубокого встраивания говорящих продвинут вперед современные достижения в области верификации говорящих. В следующем сообщении блога мы рассмотрим другие статьи этого сеанса, в которых исследуются другие аспекты конвейера SV, такие как формирование луча и обучаемые правила подсчета очков.

IQT Labs использует прикладные исследования, чтобы помочь разведывательному сообществу лучше понять и снизить риски как стратегических, так и тактических технологических проблем. Мы используем гибкую совместную работу с открытым исходным кодом между академическими кругами, отраслью и правительством для изучения конкретных аспектов более крупных проблем, часто собирая ценные сведения о «быстром отказе», а также способствуя постепенному развитию возможностей. Следуйте за нами в Twitter @ _lab41

VOiCES на Speech Odyssey 2020: достижения в области встраивания динамиков

В сотрудничестве с Майклом Ломницем

Представления смеси для встраивания громкоговорителей

Улучшение конвейеров для встраивания громкоговорителей

Улучшение выборочного встраивания

Вопросы по теме