Какой алгоритм использует Sox (швейцарский армейский нож) для удаления тишины и шума

Я пробовал Sox для удаления тишины и шума из аудиофайла. Я хотел бы знать технические детали этого, чтобы понять это. Это важно понять, прежде чем профессиональное программное обеспечение сможет на него положиться (я знаю, что оно отлично работает и используется многими).

Когда Noise семплируется с помощью Noise Profile, а затем удаляется с помощью Noisered, что на самом деле делает Sox в этом процессе? Аналогично при добавлении эффекта VAD. Есть ли техническое объяснение этого или какой-либо опубликованный документ, который я могу прочитать, чтобы понять это.


person user3065894    schedule 04.12.2013    source источник


Ответы (1)


У меня есть опыт обработки сигналов из-за моих исследований (научные основы речи и музыки, коммуникативные науки), и я только что изучил код алгоритма шумоподавления sox.

Без слишком глубокого анализа кажется, что он выполняет БПФ профиля шума и исходного сигнала, затем вычитает первое из последнего и снова выполняет синтез БПФ, чтобы воссоздать сигнал, аналогичный оригиналу.

С помощью этого процесса он должен уменьшить все частоты на величину, на которую они появляются в шумовом сигнале.

Кажется, что весь процесс выполняется в окне за окном, что должно позволять потоковую передачу.

Как я уже сказал, это основано только на моих базовых знаниях и беглом взгляде на код, поэтому могут быть аспекты, которые я не понял.

РЕДАКТИРОВАТЬ:

Я также взглянул на код VAD; кажется, что кто-то отслеживает спектр частот, появляющихся в указанном диапазоне, и если это так, объявляет это как «голос». Все части (окна), не объявленные «голосовыми», затем отключаются (AFAICS). Фактически это должно удалить все фоновые шумы в записи чистого голоса.

person Alfe    schedule 04.12.2013
comment
Спасибо Алфе. Я читал онлайн-форум, и пользователь Ульрих (он разработчик?) упомянул: это форма шумоподавления в частотной области; т. е. если сигнал в ячейке ДПФ меньше порогового значения, он еще больше ослабляется. Выходные данные NoiseProf представляют собой просто среднее значение спектра мощности для каждого бина DFT. Так что да, я не совсем понимаю, что на самом деле делает Сокс. Вы нашли техническую сторону эффекта VAD? - person user3065894; 04.12.2013
comment
Добавил часть о моих находках по теме VAD. - person Alfe; 04.12.2013
comment
Спасибо Алфе. Я думаю, что разработчик должен был предоставить некоторое техническое объяснение разработки VAD. Мне до сих пор непонятно, какой частотный диапазон и почему именно этот диапазон. Основано ли оно на перцептивной основе? Использование ZCR или другого метода. Я также посмотрю на VAD. - person user3065894; 04.12.2013