Я думаю, вам нужно определить, что вы подразумеваете под «звуковыми функциями». Существует множество различных типов функций в зависимости от того, чего вы пытаетесь достичь (например, см. некоторые из функций, представленных в эти документы).
Когда вы говорите о «самой мощной частоте», я предполагаю, что вы хотите использовать какую-то форму обнаружения высоты тона? Если это так, то пик PSD действительно будет давать наиболее доминирующую частоту, однако это не обязательно та высота, которую вы слышите. Например, инструмент может играть ноту на частоте 200 Гц, которая будет иметь спектральные пики на частотах 200, 400, 600, 800 и т. д., и не обязательно, что 200 Гц будет максимальной амплитудой. На самом деле, вы можете применить фильтр нижних частот, чтобы удалить компонент 200 Гц, и вы все равно будете воспринимать его как высоту тона (вы слышите этот эффект, если слышите музыку по телефону — он называется Виртуальная презентация).
Если вы хотите определить высоту тона, я бы посоветовал прочитать об алгоритмах оценки высоты тона.
РЕДАКТИРОВАТЬ: существует довольно много статей с исследованиями по классификации аудио, так что имейте ищите работы Эрика Шайрера, Джорджа Цанетакиса и Мартина МакКинни среди прочих. Я бы также подписался на список рассылки MIR, так как в этом списке много ключевых специалистов в этой области. а в архивах много полезного. Что касается вашего вопроса о «самой мощной частоте», я не совсем понимаю, что вы имеете в виду. При прослушивании музыки на нескольких инструментах, как правило, нет доминирующей частоты. Часто присутствует ощутимая мелодия, которая из-за микса часто выделяется, но я не уверен, что вы имеете в виду именно это.
person
the_mandrill
schedule
21.01.2013