Случаи применения

Распознавание звука - это метод определения того, являются ли два аудиоклипа «одинаковыми»; то есть распознавать аудио как что-то уже известное. Вот некоторые из причин, по которым мы могли бы захотеть это сделать:

· Поиск информации. Всем нам знакомо чувство, когда мы слышим музыкальное произведение, которое нам действительно нравится, и задаемся вопросом, что это такое. Если эта информация не будет сообщена нам, мы сможем выяснить это с помощью распознавания звука: Shazam - хорошо известный пример этого варианта использования.

· Синхронизация - распознавая, какой звук воспроизводится и насколько далеко мы находимся, дополнительное устройство может синхронизироваться с аудио или видео. Это позволяет синхронизировать интерактивные впечатления: например, телешоу может предлагать викторину с пьесой для вашего смартфона, или приложение для телефона может показывать синхронизированные тексты песен во время концерта.

· Определение аудитории. Создателям и распространителям контента важно знать размер своей аудитории. Теперь исследователи аудитории могут устанавливать приложения для распознавания звука на телефоны добровольцев. Приложение может определять, какой контент слышен, и сообщать об этом исследователям.

· Защита авторских прав. Для защиты создателей контента важно, чтобы они знали, кто распространяет их материалы и лицензированы ли эти материалы должным образом. Решения для автоматического распознавания звука могут помочь найти их контент на широком спектре медиа-платформ и позволить им определить, имеется ли лицензия.

Искажения звука

В предыдущем разделе слова «то же самое» были написаны в кавычках. Интуитивно понятие «одно и то же» не требует объяснения. Например, все мы легко узнаем нашу любимую песню по радио, когда она включается. Так в чем же сложность определения того, являются ли два аудиоклипа одинаковыми?

В цифровом мире мы называем два набора данных идентичными, если каждый бит в этих двух наборах идентичен. Цифровой звук - это просто набор данных. В конце концов, звук, как и все остальное в цифровом мире, представлен набором битов. Однако легко понять, что два аудиоклипа, которые люди назвали бы «одинаковыми», могут не содержать одинаковых битов. Например, если мы сохраним нашу любимую песню в wav-файле, она будет содержать разные биты, чем та же песня, сохраненная в формате mp3. Биты снова будут различаться между mp2, aac, flac и так далее. Однако, независимо от формата, для нас это одна и та же песня. Когда мы говорим о «распознавании звука», мы должны признать эту концепцию и создать цифровое решение, которое будет идентифицировать звук во всех этих различных форматах как «одинаковый».

Компания Intrasonics поставила перед собой еще более амбициозную цель. Intrasonics обеспечивает распознавание звука, которое не ограничивается только цифровой сферой. То есть мы хотим распознавать окружающий звук, передаваемый по воздуху. Большинство из нас понимают, что наша любимая песня звучит по-разному, когда она воспроизводится из разных динамиков или даже когда воспроизводится из тех же динамиков, но в другой комнате. Но чтобы понять, насколько отличается наша песня в этих сценариях, давайте посмотрим на форму волны нашей песни. Форма волны показывает, как амплитуда (грубо говоря: уровень громкости) изменяется за короткие периоды времени. Например, биение с постоянной частотой будет отображаться как серия пиков и впадин через равные промежутки времени.

На рисунке выше показана форма волны первых пяти секунд «Back to Black» Эми Уайнхаус. Отчетливо виден ритм песни. Эта форма волны создается из оригинальной цифровой версии песни. Теперь давайте воспроизведем эту песню через высококачественные динамики Tannoy и запишем звук на расстоянии 150 см от динамиков с помощью высококачественного записывающего оборудования без каких-либо шумов.

Первые пять секунд результирующей записи визуализируются в форме волны выше. Хотя некоторые из самых сильных ударов четко различимы (сравните удары, например, через 1,8 секунды после начала трека), некоторые другие характерные особенности формы волны исчезли или были смазаны (сравните доли, например, через 1,2 секунды после начала дорожки). трек). Интересно, что если вы послушаете оригинал и запись, вы не услышите особых различий, за исключением некоторой общей потери качества звука.

Запись, сделанная мобильным телефоном, который слушает ту же дорожку в шумной обстановке и воспроизводится через динамики более низкого качества, будет показывать форму волны, которую трудно распознать, такую ​​же, как на изображении выше. Кажется, что наши человеческие уши и мозг разработали методы маскировки большинства звуковых искажений, которые происходят в нормальной среде. Несмотря на то, что форма волны может сильно отличаться, мы можем легко распознать звук как «одинаковый».

Автоматическое распознавание звука

Так как же автоматизировать распознавание звука? Другими словами, как нам разработать компьютерную систему, которая определяет, достаточно ли похожи два трека, чтобы их можно было классифицировать как «одинаковые» для человеческого уха? Оказывается, компьютерная наука по определению идентичности двух наборов данных может быть простой задачей, но определить, являются ли два набора данных одинаковыми, довольно сложно.

Существует два основных подхода к автоматическому распознаванию звука: активное и пассивное распознавание, иногда называемое водяными знаками и отпечатки пальцев соответственно. У обоих этих подходов есть свои преимущества и недостатки. Intrasonics предлагает решение для каждого из этих подходов, поскольку каждый из них имеет свои варианты использования и может хорошо дополнять друг друга.

Водяные знаки

Методы активного распознавания изменяют исходный звук или его водяной знак. Термин «водяной знак» относится к давнему методу добавления водяного знака в текстовый документ. Когда звуковой водяной знак добавляется к исходному аудиоклипу, система распознавания может искать наличие этого водяного знака во втором аудиоклипе, чтобы определить, совпадают ли клипы.

Intrasonics разработала звуковые водяные знаки, которые достаточно надежны, чтобы сохраняться во всех формах сжатия mp3, aac, mp2 или других форматах. Кроме того, водяные знаки достаточно надежны, чтобы сохраняться даже после воспроизведения звука через динамики и его записи. Наше обнаружение водяных знаков достаточно чувствительно, чтобы улавливать водяные знаки даже в шумной обстановке: водяные знаки можно обнаружить в фоновой музыке во время разговора, в музыке торгового центра или в вращающейся машине.

Важное различие между традиционными водяными знаками документов и звуковыми водяными знаками заключается в их заметности. В то время как водяной знак документа может быть видимым (при условии, что он не влияет на читаемость текста) приемлемо, звуковые водяные знаки обычно недопустимы. Технология нанесения водяных знаков Intrasonics уникальна тем, что не слышна человеческому уху, но, тем не менее, может быть легко идентифицирована даже на сильно сжатых носителях (например, Youtube, Netflix и т. Д.).

Одним из больших преимуществ водяных знаков является простота распознавания звука. После того, как на звук был нанесен водяной знак, водяной знак можно легко обнаружить с помощью телефона, планшета, ноутбука или встроенного устройства. Подключение к Интернету или Bluetooth не требуется, потому что звук не нужно отправлять на сервер: обнаружение является локальным и автономным. Кроме того, для обнаружения требуется очень мало усилий процессора, поэтому оно практически не влияет на время автономной работы портативных устройств. Хотите подробнее узнать, как работает звуковой водяной знак? Прочтите нашу статью о водяных знаках!

Однако установка водяных знаков возможна не во всех случаях. В некоторых случаях у вас может не быть возможности изменить исходный звук. Это может быть связано с тем, что исходный звук уже доступен пользователям, или потому, что мы хотим распознать звук, управляемый или распространяемый третьей стороной.

Снятие отпечатков пальцев

В таких случаях решением может стать снятие отпечатков пальцев. Отпечатки пальцев, иногда также называемые «хешированием звука», представляют собой форму пассивного распознавания, поскольку не требуют модификации исходного материала. Вместо этого цель состоит в том, чтобы распознать аудиоклип, сравнив его со справочной базой данных аудио и определив, можно ли найти совпадение.

Приведенные выше формы волны ясно показывают, почему прямое сравнение формы звуковой волны неэффективно. Вместо этого звук сокращается до отпечатка пальца. Именование выбрано потому, что звуковой отпечаток пальца функционирует так же, как настоящий отпечаток пальца: он представляет особенности звука, которые можно сравнить с эталоном. Создав базу данных звуковых ссылок, которые нас интересуют, мы можем сравнить звуковой образец с этими ссылками, чтобы идентифицировать его, аналогично тому, как судебно-медицинский отдел может идентифицировать человека по его отпечатку пальца.

В тех случаях, когда мы хотим идентифицировать что-то конкретное, например, фильм, справочная база данных не должна быть большой. В этих случаях можно выполнять снятие отпечатков пальцев и поиск ссылок локально и в автономном режиме, что очень похоже на добавление водяных знаков. Однако в случаях, когда возможности охватывают более широкий набор контента, этот подход становится неосуществимым. В этом случае отпечаток пальца загружается на сервер, который сравнивает его со ссылками. Затем сервер возвращает результат совпадения, аналогично тому, как Shazam выполняет поиск музыки.

Хотите узнать больше о том, как работает аудиодактилоскопия? Прочтите нашу статью о снятии отпечатков пальцев.

дальнейшее чтение

Методы сокрытия данных (Бендер и др., 1996)

Обзор алгоритмов снятия отпечатков пальцев (Cano et al., 2002)

Промышленный алгоритм поиска аудио (Ван, 2006)