Эта история была написана Нимрой Захир, членом группы технического контента Educative.

Звуковые волны — это самая быстрая информационная среда, обычно используемая людьми для общения. Люди могут общаться друг с другом с помощью речи, но как машины могут нас понять? Несмотря на огромную разницу между машинным и человеческим языками, голосовая команда «Эй, Сири, найди это» может быть понята машинами. Как это стало возможным?

Звуковые волны

Звуковые волны — это колебания молекул воздуха, которые распространяются в такой среде, как воздух или вода. Эти волны создаются источниками звука, такими как музыкальные инструменты, динамики или человеческий голос, и воспринимаются человеческим ухом как звук. Оцифровка аудиоволн относится к преобразованию аналоговых звуковых волн в цифровые сигналы, которые машина может хранить и обрабатывать. Этот процесс включает в себя несколько шагов:

  1. Выборка: аналоговая звуковая волна измеряется через равные промежутки времени, и каждому измерению присваивается числовое значение. Частота, с которой выполняются эти измерения, называется частотой дискретизации и обычно измеряется в килогерцах (кГц).
  2. Квантование. Числовые значения, полученные в результате выборки, затем округляются до ближайшего целого числа. Количество битов, используемых для квантования, определяет динамический диапазон цифрового сигнала или диапазон между самыми тихими и самыми громкими звуками, которые могут быть представлены.
  3. Кодирование. Затем квантованные значения кодируются в цифровой формат, например в файл WAV или MP3, который можно сохранить на компьютере или другом цифровом носителе.

Результирующий цифровой сигнал можно обрабатывать различными способами, например редактировать, микшировать с другими аудиосигналами или воспроизводить через динамики или наушники. Рассмотрим следующий звуковой сигнал. Также обратите внимание, что этот аудиоклип будет использоваться для извлечения признаков в последних разделах.

Акустические характеристики

Аудиоклип, который должен обрабатываться алгоритмами машинного обучения для прогнозирования, нуждается в дескрипторах, потому что необработанная оцифрованная форма не предоставит модели необходимую информацию для изучения паттернов, скрытых в речи. Эти паттерны известны как акустические особенности. Есть две основные категории акустических признаков: просодические и спектральные. Просодические признаки отображают ритмические, интонационные и ударные аспекты речи. Эти особенности включают высоту тона, интонацию и скорость речи.

С другой стороны, спектральные особенности относятся к распределению энергии на разных частотах. Эти функции могут предоставить информацию о качестве или тембре звука, а также о других характеристиках, таких как высота тона и громкость. Анализ частот голосового тракта с использованием спектральных характеристик может предоставить подробную информацию о поле, возрасте и других характеристиках говорящего. В этом обсуждении основное внимание будет уделено спектральным характеристикам из-за их способности отображать характеристики голосового тракта.

Звуковые волны, аудиосигналы, необработанный звук и аудиоклип — взаимозаменяемые термины в тексте.

Время против частотной области

Цифровой сигнал существует во временной области, состоящей из времени по оси x и амплитуды по оси y. Этот сигнал можно преобразовать в частотную область с помощью преобразования Фурье, метода, который преобразует аудиосигнал, представленный функцией времени y(t), в функцию частоты Y(f). В результате получается спектр мощности. Библиотека Python Librosa может быть использована для преобразования временной формы волны в сигнал частотной области:

Как видно из иллюстрации выше, информация о времени была утеряна. Чтобы сохранить информацию об амплитуде, частоте и времени, мы используем кратковременное преобразование Фурье (STFT). Этот метод анализирует сигналы в частотно-временной области и основан на преобразовании Фурье. В отличие от анализа всего сигнала сразу, STFT анализирует короткие сегменты. Спектрограмма получается после применения STFT к сигналу:

Децибел (дБ) – это логарифмическая единица измерения, используемая для выражения соотношения между двумя величинами, например, громкостью звука.

Как люди воспринимают высоту звука

То, как люди воспринимают высоту тона, нелинейно, поэтому текущая шкала децибел не точно отражает восприятие высоты тона. Чтобы решить эту проблему, была разработана шкала Мела как шкала восприятия, основанная на том, как люди воспринимают высоту звука, а не на физических свойствах звука. Эта логарифмическая шкала, названная в честь Александра Мела, представляет собой высоты тона, которые, по мнению слушателей, равны по расстоянию друг от друга, причем каждый класс высоты звука удваивает частоту своего предшественника. Шкала Мела может быть преобразована в герцы и наоборот с помощью специальных формул:

Спектральные характеристики

Ниже подробно обсуждаются три основных акустических признака, используемых при обучении моделей задачам, связанным с речью.

Мел-спектрограммы

Мел-спектрограмма представляет собой двумерное изображение, которое дает количественную оценку частотно-временных интервалов и получается путем преобразования частоты в шкалу Мел, как показано на рисунке:

Мел-частотные кепстральные коэффициенты (MFCC)

Применение логарифмической величины к спектрограмме дает Cestrum. Коэффициенты кепстральной частоты частоты Mel (MFCC) относятся к кепстральному домену. Функция MFCC точно представляет слуховую систему человека, поскольку форма речевого тракта фильтрует звуки, издаваемые человеком, а его форма определяет результирующий звук или фонему. Для получения MFCC сначала вычисляется логарифм Mel-спектрограммы, а затем обратное преобразование Фурье, как показано на рисунке ниже.

Функция цветности (хромаграмма)

Функция цветности (или хромаграмма) — это акустическая функция, используемая при обработке речи и анализе музыки. Он представляет собой распределение энергии по 12 классам высоты тона в западной музыкальной шкале. Эта функция помогает определить тональность музыки, а также может использоваться для определения шаблонов высоты тона и последовательности аккордов в речи или музыке. Хромаграмма получается путем взятия STFT аудиосигнала, сопоставления частотного содержания с ближайшим классом основного тона и суммирования энергии в каждом классе основного тона во времени.

Пример: распознавание речевых эмоций (SER)

Следующим шагом после извлечения звуковых характеристик является определение задачи обработки речи и передача этих акустических характеристик для обучения модели. Рассмотрим задачу распознавания речевых эмоций (SER), когда модель определяет эмоцию в аудиоклипе. Речь можно классифицировать по четырем основным эмоциям: радости, грусти, нейтральности и гневу. На следующем рисунке показано, как можно использовать речевые дескрипторы для обучения модели:

Заключение

В этом блоге обсуждалось, как люди воспринимают высоту звука и понимают речь, а также метод выделения акустических характеристик. Кроме того, на примере было продемонстрировано, как эти акустические признаки можно использовать для распознавания эмоций. Аналогичные шаги можно использовать для других задач, связанных с речью, таких как распознавание речи, синтез речи, идентификация и проверка говорящего, улучшение речи и преобразование речи в речь.

Если вы хотите узнать больше об обработке аудиосигнала и обработке речи, не ищите дальше! Ознакомьтесь со следующим проектом на Образовательной платформе: Распознавание эмоций по речи с помощью Librosa.

Как всегда, приятного обучения!