Алгоритм спектрального обучения для разделения речи

Я ничего не знаю об обучении слепых науке. Даже мой самый ранний курс по решению проблем начинается с шага 1: прочтите проблему; Шаг 2: Нарисуйте картину ситуации — оба начальных шага неразрывно связаны со зрением. Я исчерпал количество маркеров и метров мела, создавая сложные диаграммы на доске, и активно использую проекторы в классах для анимации и презентаций. Целые курсы биологии требуют, чтобы студенты запоминали изображения, увиденные в микроскоп, и зарисовывали замысловатые карикатуры механизмов мембранного транспорта. Неудивительно, что ученые-компьютерщики и инженеры-электронщики усердно разрабатывают алгоритмы и оборудование для машинного зрения. Даже если конечная цель интеллектуальных зрячих машин может быть далека, инструменты, способные пробежать через часы видеонаблюдения, кабинеты медицинских изображений или горы отсканированных документов, могут сделать интеллектуального исследователя очень эффективным.

Одной из важных областей исследования машинного зрения является сегментация изображения, при которой пиксели изображения делятся на группы или области, которые представляют объекты или части объектов. Это немного отличается от поиска определенного объекта на изображении путем сравнения известной модели объекта с изображением посредством корреляции или другой подобной операции. При сегментации характеристики изображения, включая текстуру, яркость и цвет, используются для связывания пикселей в статистически похожие кластеры, а дополнительные характеристики, такие как контрастность, градиенты интенсивности и обнаружение краев, помогают различать интерфейс между различными объектами. Таким образом, алгоритм сегментации «слеп» к идентификации отдельных объектов и просто указывает их положение, форму и количество.

Профессор Майкл И. Джордан и его исследовательская группа из Калифорнийского университета в Беркли недавно разработали слепой алгоритм для нахождения оптимальных значений «матрицы подобия», используемой для разбиения пикселей или точек изображения на непересекающиеся кластеры с точками в одном и том же месте. кластер, имеющий высокое сходство, и точки в разных кластерах, имеющие низкое сходство, с использованием процесса, называемого «спектральная кластеризация». Вместо того, чтобы начинать со всего изображения и разбивать точки ровно на две группы принадлежности или не принадлежности к текущему кластеру (как при создании бинарного дерева поиска), алгоритм рассматривает кластеризацию изображения на любое количество k-подмножеств одновременно. Оптимальное количество кластеров k и к какому кластеру принадлежит каждая точка рассматривается как задача минимизации ошибок путем сравнения результатов алгоритма с «правильным» ответом — сегментированным изображением, созданным человеком-оператором. Как и другие алгоритмы обучения с учителем, после того, как он обучен выдавать правильные результаты, его можно применять к новым, но аналогичным входным данным.

Алгоритм спектральной кластеризации обучения был представлен на конференции Neural Information Processing Systems (NIPS) 2004 года в декабре прошлого года, где группа Джордана также описала его полезность для разделения речи нескольких говорящих, записанной одним микрофоном. Когда изображение нескольких объектов записывается одной цифровой камерой, оно на самом деле захватывается миллионами отдельных пикселей и отображается в виде прямоугольной матрицы значений интенсивности и цвета. Один микрофон записывает значения давления в зависимости от времени, которые можно изобразить в виде прямоугольной матрицы, имеющей время по горизонтали и интенсивность давления по вертикали. Поскольку звук чаще всего ассоциируется с частотным анализом, к значениям интенсивности давления можно применить оконное кратковременное преобразование Фурье, чтобы получить прямоугольную матрицу зависимости частоты от времени, известную как спектрограмма. В то время как несколько одновременных объектов разделяются по положению на изображении, одновременная речь нескольких говорящих различается по частоте (высоте) и резонансным характеристикам, известным как тембр.

Традиционные алгоритмы распознавания голоса должны знать личность отдельного говорящего, прежде чем его речь можно будет отделить от других говорящих или фонового шума, подобно известным моделям, используемым при распознавании объектов. Поскольку спектральный алгоритм обучения связан только с группировкой похожих элементов, он может слепо разделять говорящих, не зная их идентичности. В дополнение к кластеризации схожих гармонических характеристик высоты тона и тембра, алгоритм отслеживает негармонические признаки, такие как непрерывность, когда две точки время-частота близки по времени или частоте, и «общие сигналы судьбы» — элементы, которые демонстрируют схожие изменения во времени, такие как как идентичное время начала и окончания, а также частотная сомодуляция, возникающая в результате «речевой психофизики» пунктуации, интонации и ударения. Звуковые фрагменты, используемые для обучения алгоритма, легко создаются путем слияния речевых файлов отдельных дикторов, а исходные отдельные файлы используются для определения оптимальных результатов. Не зная языка, на котором говорят, личности говорящих или механики, используемой для создания звуков, алгоритм можно использовать в качестве настраиваемого фильтра для получения желаемого преобразования. Хотя это и не требуется алгоритмом, его полезность для анализа изображений и речи и информатики в целом отражает далеко идущее видение его разработчиков.

Первоначально этот материал был опубликован как редакционная статья в журнале Scientific Computing and Instrumentation 22:9, август 2005 г., стр. 8.

Уильям Л. Уивер — адъюнкт-профессор кафедры интегрированных наук, бизнеса и технологий Университета Ла Саль в Филадельфии, штат Пенсильвания, США. Он имеет B.S. Получил двойную степень по химии и физике и получил докторскую степень. в аналитической химии с опытом в сверхбыстрой лазерной спектроскопии. Он преподает, пишет и рассказывает о применении системного мышления для разработки новых продуктов и инноваций.