Interspeech 2019, прошедший в Граце, Австрия, собрал экспертов со всего мира, чтобы обсудить некоторые из последних достижений в области технологий на стыке речи и языка. Сеансы по автоматическому распознаванию речи (ASR), идентификации говорящего (SID) и генерации речи, среди многих других, были полны захватывающих обновлений.

На Lab41 мы были рады провести вместе с SRI International одну из 10 специальных сессий и задач - VOiCES from the distance challenge. Задача была сосредоточена на сравнительном анализе и улучшении современных технологий в области распознавания говорящих и автоматического распознавания речи в дальней зоне с использованием собственного набора данных VOiCES Lab41. Набор данных включает речь, записанную в сильно реверберирующей среде, несколько микрофонов, а также дополнительный шум, такой как лепет, телевидение или музыка.

Сначала небольшой антракт. Если вы хотите узнать больше о наборе данных VOiCES, вы можете проверить наши предыдущие блоги, посмотреть быстрое поясняющее видео или посетить официальный веб-сайт. Если вам действительно интересно, вы можете бесплатно скачать его с AWS Open Data Registry. А теперь вернемся к шоу ...

Задача также была направлена ​​на изучение производительности моделей в ограниченных условиях, когда данных было мало, и поэтому мы включили два трека:

  • В фиксированной системе обучающие данные были ограничены определенными существующими наборами данных, а также подмножеством VOiCES.
  • Открытая система устранила эти ограничения и позволила участникам использовать любой внешний набор данных (частный или общедоступный).

Всего в испытании приняли участие 60 команд, из которых 24 были окончательно оценены по двум задачам. Полученные материалы содержали много общих элементов и в некоторых случаях содержательные приемы и подходы, которые стоит отметить. В этом сообщении блога мы хотели бы выделить некоторые из наиболее полезных идей, которые мы услышали от двух лучших команд по каждому треку.

TL;DR

Остальная часть этого поста подробно расскажет о каждом из представленных материалов. Хотя я призываю вас всех прочитать оставшуюся часть сообщения, я решил сэкономить время и нервы некоторых наших читателей и изложить некоторые из наиболее интересных / ценных идей о конкурсе.

  • Команды-победители включали сочетание традиционной обработки сигналов, а также машинного обучения для акустического и языкового моделирования.
  • Каждая команда использовала дереверберацию ошибки предсказания веса (WPE) в своих системах. Некоторые исследовали другие альтернативы, включая подходы нейронных сетей, но обнаружили, что WPE работает лучше всех.
  • Калди, Калди, Калди… Все наши победители использовали некоторые элементы Kaldi по крайней мере в одной части своих систем. Вложения динамиков (x-векторы) были особенно эффективны как для задач SID, так и для ASR.
  • Увеличение данных также было особенно важным, особенно с учетом того факта, что набор обучающих данных был ограничен по размеру.
  • Обе команды отметили, что понижение частоты дискретизации MFFC с 16 кГц до 8 кГц оказало сильное негативное влияние на производительность задачи SID.
  • Несмотря на то, что команды проделали впечатляющую работу с учетом условий звука, результаты далеки от того, что современные специалисты могут получить с чистым звуком.

Мы также рады сообщить, что VOiCES проведет еще одну специальную сессию в рамках предстоящей Speaker Odyssey 2020. Так что продолжайте следить за новыми обновлениями и новыми исследованиями в области звука в дальней зоне.

Идентификация спикера

Первая задача заключалась в проверке способности распознавать голос человека по шумному звуку. Аудио из комнат №1 и №2 набора данных VOiCES использовалось для регистрации и проверки выступающих во время разработки. Затем представленные материалы были оценены с использованием образцов из комнаты № 3 для регистрации новых докладчиков и комнаты № 4 для проверки.

Результаты конкурса показаны на следующем рисунке. На рисунке показана функция фактических затрат на обнаружение (actDCF) и функция минимальных затрат на обнаружение (minDCT) для разных команд (чем меньше, тем лучше). Для более подробной информации об оценке и определениях actDCF и minDCTF, пожалуйста, прочтите больше в этой статье.

Первое место: НТЦ-инновации

Для своей SID-системы НТЦ-инновации объединили ряд компонентов:

  • Внешний интерфейс: Первым шагом было использование метода взвешенной ошибки прогнозирования (WPE) для дереверберации для улучшения качества сигнала перед извлечением частотных кепстральных коэффициентов Mel (MFFC). Затем MFFC подвергались постобработке с использованием локальной нормализации кепстрального среднего (CMN), а также нормализации кепстрального среднего и дисперсии (CMVN) по всему высказыванию. Затем постобработанные функции были введены в систему обнаружения речевой активности (SAD) для выбора разделов с речью.
  • Встраивание динамиков: STC исследовал использование двух разных глубоких нейронных сетей для создания встраиваемых элементов для отдельных динамиков. Они сравнили использование x-векторов из системы Kaldi и c-векторов из остаточной сети спикеров.
  • Спикеры были выделены в этом пространстве DNN-вложений с использованием подхода к изучению метрики косинусного сходства (CSML). Этот подход основан на обучении линейному преобразованию вложения динамиков таким образом, чтобы косинусное сходство между двумя выборками из одного и того же динамика было максимальным.

Компания STC протестировала ряд различных систем, сочетающих различные комбинации MFFC, нормализации, встраивания динамиков и т. Д. Некоторые интересные выводы из результатов своих исследований:

  • Понижение частоты дискретизации MFFC с 16000 Гц до 8000 Гц оказывает существенное влияние на производительность моделей, даже при обучении на больших наборах данных.
  • Системы, основанные на более глубоких встраиваниях x-векторов от Kaldi, работали лучше, чем те, которые использовали c-векторы от SpeakerResNet.
  • Использование распознавания речи на основе ASR также помогло достичь наилучших результатов.

Второе место: Технологический университет Брно (НО)

В материалах, представленных НО, много общего с системами, представленными STC.

  • Функции ввода: НО экспериментировал с рядом различных функций ввода, таких как MFCC 16 кГц, банки фильтров и анализ Perceptual linear predictive (PLP) от Kaldi и HTK. Функции были предварительно обработаны с использованием краткосрочной средней нормализации в течение 3-секундных окон. НО также экспериментировал с нейронной сетью (NN) и системой SAD на основе энергии, чтобы изолировать разделы с речью.
  • Встраивание динамиков: НО по сравнению с использованием двух наборов встроенных динамиков. После применения WPE для дереверберации они извлекли гендерно-независимые векторы идентичности (i-векторы), а также x-векторы из Kaldi.
  • Back end: i-векторы были оценены с использованием вероятностного дискриминантного анализа с тяжелым хвостом (HT-PLDA), а для x-векторов они обучили гауссовский PLDA. Каждая система предоставила оценки отношения правдоподобия журнала, которые могут быть подвергнуты нормализации оценки. Эти оценки сначала были откалиброваны, а затем переданы на объединение. Калибровка и слияние были обучены на помеченных данных разработки VOiCES.

НО участвовал в вызовах Speakers in the Wild (SITW) и VOiCES и, следовательно, имел возможность сравнить, как современное состояние эволюционировало за последние 3 года.

  • Коэффициент равных ошибок SITW (EER) улучшился с 5,85% с i-векторами до 1,65% с x-векторами. Новые системы также значительно улучшили VOiCES (12,65% против 4,86%).
  • НО также заметил, что переключение с 8 кГц на 16 кГц привело к резкому улучшению производительности их систем.
  • Наряду с x-векторами, НО выявил еще одну причину их улучшения: доступность набора данных VOXCELEB, большого как с точки зрения количества динамиков, так и звука.

Автоматическое распознавание речи

В задаче ASR цель состоит в том, чтобы преобразовать аудиовыборку в соответствующую расшифровку, и представленные материалы оценивались в соответствии с их частотой ошибок в словах (WER). Это значительно более сложная задача, и в итоге только 6 команд справились с этой задачей.

WER для команд, которые участвовали в этом испытании, показаны на следующей полосовой диаграмме.

Первое место: НТЦ-инновации

Заявка от STC также заняла первое место в конкурсе ASR. Их система построена на системе Kaldi, обученной для LibriSpeech, как показано на следующей схематической диаграмме:

  • Увеличение данных. Увеличение данных использовалось для увеличения объема обучающих данных, а также для уменьшения несоответствия между обучающими наборами и наборами для разработки. STC исследовал два типа увеличения данных. Во-первых, они смоделировали серию импульсных откликов помещения (RIR) во временной и частотной областях. Наряду с моделированием RIR исходные данные были модифицированы путем добавления различных шумов от MUSAN, AURORA, QUT-NOISE и около 20 часов телевидения. Исходные данные были увеличены 24 раза, что дало 1894 часа аудио, и на каждом шаге увеличения 10% высказываний выбирались случайным образом и оставались неизменными. Наконец, они применили дереверберацию WPE как к разработанным, так и к смоделированным наборам данных.
  • Акустическое моделирование: Для акустического моделирования авторы экспериментируют с рядом различных архитектур глубокого обучения, в конечном итоге выбирая 7-слойную сверточную нейронную сеть (CNN), за которой следует 9-слойная факторизованная нейронная сеть с временной задержкой. (TDNN-F) для лучшей производительности. Исходя из предыдущего опыта, STC отметила, что использование адаптации динамика чрезвычайно полезно для удаленного ASR. Следовательно, они применили современные вложения динамиков x-вектора для адаптации динамиков на обработанных WPE смоделированных данных. Чтобы учесть акустику помещения, они построили классификатор RIR и извлекли 512 размерных r-векторов. Сочетание адаптации динамика и помещения дало еще 3% улучшение их WER.
  • Языковые модели. Последним шагом является применение языковых моделей на основе нейронных сетей (NLMM) для прогнозирования текста, связанного с обработанным звуком. Представленный STC с самым высоким рейтингом включал комбинацию трех современных NNLM: Transformer-XL, обученный подсловам Morfessor, Transformer-XL, обученный подсловам BPE и частотно-независимое встраивание слов (FRAGE ) обучены на токенах уровня слова. Эта окончательная система получила WER 12,4% при разработке и 14,7% во время оценки.

Второе место: I2R

Нашим вторым в конкурсе ASR стала форма I2R.

  • Система I2R использовала разностороннее обучение и увеличение данных для учета различий между данными обучения и развития в акустическом моделировании. Они смоделировали реверберацию в обучающих данных, а также три различных типа точечного шума источника: шум переднего плана (подмножество свободного звука из MUSAN), лепет (корпус TEDLIUM) и музыка (MUSAN). Данные также были дополнены настройкой скорости речи на 0,9, 1,0 и 1,1. Итоговый набор обучающих данных был в 27 раз больше.
  • Следуя аналогичному подходу, I2R применил дереверберацию WPE в качестве этапа предварительной обработки. и отметил, что использование WPE для дереверберации привело к снижению WER в эталонной системе ASR в среднем на 4,5%.
  • Для языковой модели I2R использовал инструментарий Kaldi-RNNLM из-за его быстрого времени выполнения как во время обучения, так и во время вывода, а также высокой гибкости для включения дополнительных функций, таких как подслова, которые особенно полезны в ситуациях с разреженными данными. Эта языковая модель использовалась для повторного анализа результатов работы систем ASR.
  • Чтобы улучшить свою производительность, они построили серию систем ASR с различными архитектурами, включая исследованные включенные CNN, LSTM и TDNN, объединенные в разные конфигурации. Решетки, созданные системами ASR, были объединены (взвешены по относительной производительности системы) и декодированы для получения минимального WER. Системы ASR были обучены с использованием 40-мерных MFCC и 100-мерных i-векторов. В целом, их окончательный WER составил в среднем 27,04%.

Lab41 - это испытательная лаборатория Кремниевой долины, в которой эксперты из разведывательного сообщества США (IC), академических кругов, промышленности и In-Q-Tel собираются вместе, чтобы лучше понять, как работать с большими данными и, в конечном итоге, использовать их.

Узнайте больше на lab41.org и подпишитесь на нас в Twitter: @ _lab41