Исследователи предлагают MIMO-Speech, новую архитектуру нейронной последовательности

В течение долгого времени обработка речи страдала от проблемы с коктейлем, когда речь целевого говорящего запутывалась с шумом от мешающих говорящих. Таким образом, исследователи активно пытались понять сенсорные решения проблемы.

Глубокое обучение помогает стимулировать текущие исследования, в которых оно применяется для решения проблем распознавания и разделения речи с несколькими говорящими. Эти усилия делятся на два класса, а именно одноканальные и многоканальные, в зависимости от типа входных сигналов.

Сквозной подход доказал свою эффективность в распознавании монофонической речи с несколькими динамиками. Но он страдает высоким коэффициентом ошибок по словам (WER), что не позволяет использовать такие системы в практических приложениях. С другой стороны, пространственная информация в многоканальных сигналах оказалась полезной в задачах распознавания речи в дальней зоне.

Сквозное многоканальное распознавание речи с несколькими динамиками

Исследователи из Центра обработки речи и языка Университета Джонса Хопкинса, США, SpeechLab, Шанхайского университета Цзяо Тонга, Китай, и Mitsubishi Electric Research Laboratories, США, предложили модель MIMO-Speech для разделения и распознавания многоканальной речи с несколькими говорящими.

MIMO-Speech - это полностью нейронная сквозная сеть, которая включает монофоническую маскирующую сеть, нейронный формирователь луча с несколькими источниками и модель распознавания речи с несколькими выходами. Он принимает речь нескольких говорящих, записанную массивом микрофонов, в качестве входных данных и выводит текстовые последовательности для каждого говорящего. Внешний интерфейс модели, который включает нейронный формирователь луча, учится выполнять разделение речи, даже если не используется явный критерий восстановления сигнала. MIMO-Speech расширяет исходный seq2seq для работы с многоканальным вводом и многоканальным выводом.

Возможное использование и эффекты

При оценке с пространственным корпусом wsj1–2mix, MIMO-Speech может достичь снижения WER более чем на 60% по сравнению с одноканальной системой с высококачественными улучшенными сигналами. Одним из основных преимуществ MIMO-Speech является то, что вся модель дифференцируема и может быть оптимизирована с потерей ASR в качестве цели. Исследователи также разработали эффективную стратегию обучения, которая поможет повысить производительность модели.

Подробнее: Сквозное многоканальное распознавание речи с несколькими динамиками

Спасибо за то, что читаете, комментируете, делитесь и давайте подключимся в Twitter, LinkedIn и Facebook. Чтобы получать обновления самых последних и интересных научных статей, подпишитесь на нашу еженедельную рассылку. Не забудьте 👏, если вам понравилась эта статья. Ваше здоровье!