1. DeepVQE: улучшение качества глубокого голоса в реальном времени для совместного подавления акустического эха, шумоподавления и дереверберации (arXiv)

Автор: Евгений Инденбом, Николае-Каталин Ристя, Андо Саабас, Танель Парнамаа, Егор Гузвин, Росс Катлер.

Аннотация: Акустическое эхоподавление (AEC), шумоподавление (NS) и дереверберация (DR) являются неотъемлемой частью современных полнодуплексных систем связи. По мере роста спроса на системы телеконференций решение этих задач необходимо для эффективного и действенного проведения онлайн-совещаний. Большинство предшествующих исследований предлагают решения для этих задач по отдельности, комбинируя их с компонентами на основе цифровой обработки сигналов (DSP), что приводит к созданию сложных конвейеров, которые часто нецелесообразно развертывать в реальных приложениях. В этой статье предлагается глубокая модель перекрестного внимания в реальном времени под названием DeepVQE, основанная на остаточных сверточных нейронных сетях (CNN) и рекуррентных нейронных сетях (RNN) для одновременной обработки AEC, NS и DR. Мы проводим несколько исследований абляции, чтобы проанализировать вклад различных компонентов нашей модели в общую производительность. DeepVQE достигает высочайшего уровня производительности на неперсонализированных треках из тестов ICASSP 2023 Acoustic Echo Cancellation Challenge и ICASSP 2023 Deep Noise Suppression Challenge, показывая, что одна модель может справляться с несколькими задачами с превосходной производительностью. Более того, модель работает в режиме реального времени и успешно протестирована на платформе Microsoft Teams.

2. Сквозное управление адаптацией на основе глубокого обучения для линейного акустического эхоподавления (arXiv)

Автор: Томас Хаубнер, Андреас Брендель, Вальтер Келлерманн.

Аннотация: Ослабление эха акустических громкоговорителей остается одной из открытых проблем для достижения приятного полнодуплексного общения в режиме громкой связи. Во многих современных интерфейсах усиления сигнала эта проблема решается с помощью линейного акустического эхоподавителя, который вычитает оценку эха громкоговорителя из записанного микрофонного сигнала. Чтобы получить точные оценки эха, необходимо быстро и точно оценить параметры эхокомпенсатора, т. е. коэффициенты фильтра, по наблюдаемым сигналам громкоговорителя и микрофона. Для этого требуется сложное адаптационное управление, чтобы справляться с мощным двойным разговором и быстро отслеживать изменяющиеся во времени акустические условия, с которыми часто сталкиваются портативные устройства. В этой статье мы решаем эту проблему с помощью сквозного глубокого обучения. В частности, мы предлагаем определить размер шага для обновления адаптивного фильтра частотной области методом наименьших квадратов с помощью глубокой нейронной сети (DNN). Исследуются два различных подхода к выводу о размере шага. С одной стороны, широкополосные подходы, которые используют одну DNN для совместного определения размеров шага для всех частотных диапазонов, а с другой стороны, узкополосные методы, которые используют отдельные DNN для каждого частотного диапазона. Обсуждение преимуществ и недостатков обоих подходов приводит к новому гибридному подходу, который демонстрирует улучшенное эхоподавление, требуя только небольших архитектур DNN. Кроме того, мы исследуем влияние различных функций потерь, векторов признаков сигналов и архитектур выходного слоя DNN на эффективность эхоподавления, из чего мы получаем ценную информацию об общей конструкции и функциональности алгоритмов управления адаптацией на основе DNN.