В современном мире наши разговоры с компьютерами выросли в геометрической прогрессии. Но, увы, эти технологические чудеса не обращают внимания на наши эмоции, что может быть неудобно. В этой статье я пытаюсь раскрыть интригующие подходы к обнаружению эмоций с помощью передовых технических средств. И не только это, я также порадую вас рассказом о новаторской процедуре, разработанной в нашем инновационном университетском исследовательском институте, которая может работать без подключения к сети. Итак, пристегнитесь и приготовьтесь очаровываться чудесами технологии распознавания эмоций!

Предыстория

Люди выражают свои чувства не только словами. Тон их голоса, скорость, с которой они говорят, и даже паузы между ними могут дать подсказки.

счастье, печаль, гнев, страх, отвращение и удивление.

Обычные компьютеры понятия не имеют, что это значит. Они просто обрабатывают основные звуки речи.

В последнее время мне все чаще приходилось общаться с компьютерами, причем либо посредник-человек давал указания, либо отвечал непосредственно на мои запросы. Меня беспокоило, что эти компьютеры, казалось, совершенно не подозревали об эмоциональном воздействии, которое это взаимодействие оказало на меня, поскольку они постоянно отвечали беспристрастно и объективно, что только усиливало мое разочарование.

Чтобы решить эту проблему, исследователи нашего института приступили к совместному исследованию, результаты которого были недавно опубликованы авторами Домиником и мной в научной статье, которая носит довольно объемный и технический характер. Тем не менее, я рад сообщить вам, что ссылку на нашу оригинальную 24-страничную научную статью, недавно опубликованную в Journal of Computer Science Research, можно найти в конце текущей статьи.

Технические сведения о современных технологиях

По мере интеграции машин в нашу повседневную жизнь растет потребность в том, чтобы эти машины обладали способностью понимать человеческие эмоции. Когда мы взаимодействуем с компьютерами, робототехникой и искусственным интеллектом, нам свойственно выражать свои эмоции с помощью различных средств, таких как изменение тона голоса, выражение лица и жесты, и это лишь некоторые из них. Однако стоит отметить, что

в большинстве современных технологий отсутствует всестороннее понимание этих эмоциональных сигналов.

Исследователи разработали системы, которые могут эффективно распознавать эмоции по голосу человека, чтобы решить эту проблему. Подобно тому, как люди извлекают смысл из вариаций речевых паттернов, эти машины приобретают способность интерпретировать такие элементы, как паузы, высота тона, громкость, темп и другие тонкие нюансы, намереваясь идентифицировать такие эмоции, как радость, печаль, гнев и т. д. .

Один конкретный подход включает алгоритмы обучения, использующие методы машинного обучения, на большом наборе данных образцов эмоциональной речи. Раскрывая акустические паттерны, связанные с различными эмоциональными состояниями, эти системы могут классифицировать основные эмоции с точностью примерно 70%.

Другие исследователи преобразовывают речь в визуальные представления, известные как спектрограммы, красочные изображения, представляющие образцы звуковых волн.

Основные этапы исследования

В начале 2000-х годов облачные вычисления стали революционной вехой, трансформировав бизнес-модели и породив инновации во всем мире. Однако господство облачных вычислений сейчас уходит в закат, поскольку новая парадигма, известная как граничные вычисления, привлекает всеобщее внимание, движимая растущими запросами и требованиями.

Пограничные вычисления приносят с собой возможности для удовлетворения потребностей в низкой задержке, повышенной безопасности данных, беспрепятственной поддержке мобильности и обработке в реальном времени, что делает их грозным конкурентом облачным аналогам.

На этапе граничных вычислений доминируют три подобласти: туманные вычисления, облачные вычисления и мобильные граничные вычисления (MEC). В то время как туманные вычисления и облачные вычисления по-прежнему трудно найти в реальных приложениях, MEC стала суперзвездой шоу.

Представьте себе: станции MEC прямо на устройствах ближнего действия или внутри них, обеспечивая повседневное использование этой передовой технологии. MEC означает, что обработка данных происходит мгновенно, прямо на самом конечном устройстве.

У нас также есть мобильные облачные вычисления (MCC), где конечные устройства выполняют обработку и отправляют результаты только обратно на серверы MEC или MCC. Сочетание методов облачных и граничных вычислений предлагает ошеломляющий набор возможностей, подходящих для различных вариантов использования и в полной мере использующих их уникальные сильные стороны.

Теперь давайте переключимся на другую захватывающую тему: распознавание речевых эмоций (SER) и увлекательный мир извлечения признаков и распознавания образов. Современные исследования полны дискуссий о SER, где непрерывные и спектральные особенности речи занимают центральное место, улавливая суть эмоций с поразительной точностью.

Путешествие по распознаванию эмоций зависит от изображения первичной частоты речи, громкости, временных отношений, пауз и спектральных характеристик, таких как кепстральный коэффициент частоты мела (MFCC) и так называемые спектрограммы мела.

Мел-спектрограммы

В волшебной сфере обработки звука и речи появилась завораживающая звезда — мел-спектрограмма (мел — мелодия). Этот завораживающий инструмент визуализации занял центральное место, привлекая как исследователей, так и энтузиастов. Его великолепие заключается в способности отображать частотный состав звукового сигнала во времени действительно уникальным образом.

Используя мел-шкалу, которая отражает наше восприятие высоты тона, мел-спектрограмма улавливает суть различных частотных диапазонов, которые имеют огромное значение для анализа речи и звука. Этот удивительный подход предлагает богатую картину акустических характеристик сигнала, что делает его незаменимым помощником во множестве приложений, включая распознавание речи и обработку музыки.

В сущности, мел спектрограмма служит доброжелательным проводником, раскрывая тайны звука, освещая тонкий танец между частотами и временем и питая наше понимание захватывающего мира звука.

Методы машинного обучения

В стремлении к совершенству классификации на сцену вышли различные методы, от классической гауссовской модели смеси (GMM) и скрытой марковской модели (HMM) до очаровательной машины опорных векторов (SVM) и увлекательного мира нейронных сетей.

Очарование на этом не заканчивается; мы совершенно очарованы завораживающим потенциалом рекуррентных нейронных сетей (RNN), таких как долговременная кратковременная память (LSTM). Но подождите, теперь в центре внимания сверточные нейронные сети (CNN), такие как AlexNet, VGG16, ResNet и MobileNetV2, которые стали лидерами благодаря своей замечательной эффективности использования ресурсов и памяти. Это похоже на грандиозную трансформацию — спектрограммы MFCC и Mel объединяются с CNN, а мистическое искусство трансферного обучения и многозадачного обучения усиливает очарование.

Представьте себе: замечательная перспектива запуска всего этого на маленьких компьютерах, полностью освобожденных от когтей крупных провайдеров.

Это не только дает нам драгоценный подарок повышенной конфиденциальности данных, но также дает нам вновь обретенное чувство независимости.

Благодаря этому замечательному сочетанию мы можем процветать, освобождаясь от связывающих нас цепей и охватывая мир, в котором наша автономия не знает границ. Итак, давайте насладимся этой расширяющей возможности возможностью, где переплетаются конфиденциальность и уверенность в себе, и воспользуемся возможностью, чтобы определить нашу цифровую судьбу.

Извлечение нужных данных с помощью наборов параметров

Каждое превосходное распознавание обязано своим волшебством умело извлеченным признакам. Это искусство предполагает тщательный отбор из разнообразной коллекции. Излюбленным волшебником машинного обучения является увлекательная платформа с открытым исходным кодом под названием «Интерпретация речи и музыки с помощью извлечения из большого пространства» (openSMILE). Эта замечательная структура содержит расширенный Женевский минималистический набор акустических параметров (eGeMAPS) и наборы данных CompParE, которые играют ключевую роль в грандиозном зрелище. В глубоком обучении центр внимания смещается на CNN, которые изящно берут на себя роль извлечения признаков, либо выступая в качестве классификаторов, либо передавая эстафету SVM, завораживая аудиторию своей универсальностью.

В этом захватывающем акте классификации эмоций раскрываются разнообразные наборы эмоций, каждый из которых содержит уникальное количество эмоций. Публика погружается в эмоции от пяти до умопомрачительных двадцати. Среди множества эмоций ярко выделяются классические эмоции из коллекции Экмана: счастье, печаль, гнев, страх, отвращение и удивление, сопровождаемые загадочной седьмой эмоцией, нейтральной.

Поскольку периферийные вычисления привлекают всеобщее внимание, а нейронные сети раскрывают свое волшебство, будущее распознавания эмоций таит в себе неисчислимые чудеса.

Наш подход

Мы отважились на распознавание эмоций в речи, используя помеченные эмоциональные речевые данные для нашего прототипа реализации. Чтобы обеспечить надежный набор данных, мы искали аудиофайлы продолжительностью от одной до двадцати секунд. Наше внимание в основном было сосредоточено на шести основных эмоциях, которые обычно упоминаются в базах данных эмоций, как упоминалось ранее. Однако в нашей работе мы не учитывали параметры возбуждения и валентности, таким образом пренебрегая этими критериями при сборе данных.

В человеческой речи эмоции часто проявляются в отдельных предложениях. Следовательно, выбранная продолжительность звука от одной до двадцати секунд субъективно хорошо согласуется, заключая в себе большинство произнесенных предложений.

Выбранные аудиофайлы должны исключать пение, шум или подобные помехи, чтобы сохранить четкость и релевантность. Хотя родной язык говорящего не был критерием отбора, мы обеспечили сбалансированное представление как мужских, так и женских устных предложений во всей полученной базе данных. Такие факторы, как номер канала или частота дискретизации, также не имели значения на этапе сбора данных, поскольку эти параметры стандартизируются во время обучения.

Наконец, в целях доступности и ясности аудиофайлы и базы данных должны быть в свободном доступе и маркироваться соответствующими ярлыками.

Помня об этих критериях качества, мы выбрали следующие звуковые базы данных, соответствующие нашим стандартам:

1) Аудиовизуальная база данных эмоциональной речи и песни Райерсона (RAVDESS)

2) Берлинская база данных эмоциональной речи (Emo-DB)

3) Набор эмоциональных речей Торонто (TESS)

4) ЭМОВО

5) eNTERFACE’05

В нашем исследовании методы машинного обучения и глубокого обучения объединяются, погружаясь в таинственный мир распознавания эмоций. Поиски начинаются с общего корпуса данных, отобранного вручную на основе предопределенных критериев, тщательно изложенных в существующей литературе. Непроизнесенные предложения исключены из уравнения, поскольку прототипы ориентированы исключительно на распознавание речи и эмоций (SER). Разрешены только файлы с чистой речью, даже если некоторые музыкальные произведения содержат фрагменты речи в сопровождении инструментов.

И говоря о фоновом шуме, его нельзя игнорировать в этом мелодичном путешествии. Общение в реальной жизни часто происходит в шумной обстановке, поэтому аудиоданные с фоновым шумом необходимы для обогащения исследования. Но не путайте его с музыкальным фоновым шумом, который играет другую роль в великой симфонии сценариев, связанных с речью.

Родной язык, используемый в аудиофайлах, также не является ограничением. Немецкий, английский, итальянский, турецкий, датский или китайский — все языки приветствуются на этой увлекательной сцене. Почему? Потому что шесть основных эмоций, описанных Дарвином и Экманом, одинаково выражаются в разных культурах, преодолевая языковые барьеры.

Открытый доступ к размеченным данным — еще один ключ к нашему загадочному приключению.

Без него все путешествие было бы окутано тайной, что сделало бы невозможным воспроизвести результаты для других. В конце концов, контролируемые алгоритмы машинного обучения процветают на размеченных данных.

Теперь поговорим о звездах шоу — гиперпараметрах!

Гиперпараметры – это важные элементы глубокого и машинного обучения. Они действуют как регуляторы, контролирующие процесс обучения и производительность модели. Они задаются перед обучением и влияют на архитектуру и сложность модели.

В машинном обучении общие гиперпараметры включают скорость обучения, которая определяет, насколько модель корректирует свои параметры во время обучения, и количество скрытых слоев, которые влияют на глубину модели и ее способность изучать сложные шаблоны.

В глубоком обучении гиперпараметры становятся еще более важными из-за сложности глубоких нейронных сетей. Конкретные гиперпараметры включают частоту отсева, функции активации, алгоритм оптимизации и инициализацию веса. Все они играют решающую роль в производительности модели.

Глубокое обучение может похвастаться явными гиперпараметрами, в то время как машинное обучение стремится найти оптимальные значения на основе заранее определенных критериев. Разворачивается битва между этими двумя подходами, каждый из которых борется за внимание.

По мере продвижения мы сталкиваемся с базовыми моделями — MobileNetV2, CNN ResNet50 и SqueezeNet — все они стремятся продемонстрировать свои уникальные преимущества. Но помните, путь к величию не обходится без проблем. Переоснащение и недооснащение добавляют в историю нотку драмы, заставляя нас нервничать.

И сюжет закручивается! Прототипы, разработанные в этом исследовании, созданы специально для устройств, оснащенных микрофонами, что делает их идеальными компаньонами для интеллектуальных колонок и телевизоров. Все они готовы отправиться в грандиозное приключение, привнося эмоциональное признание в повседневную жизнь.

С возможностью работы в режиме реального времени решающим фактором становится преимущество скорости машинного обучения. Гонка начинается, когда часы отсчитывают миллисекунды разницы.

Но подождите, это еще не все! Исследование открывает дверь к бесконечным возможностям, прокладывая путь для будущих исследований SER в реальном времени и граничных вычислений. Кто знает, какие еще тайны ждут своего разрешения в распознавании эмоций?

Заключение

В нашем новаторском исследовании передовые системы распознавания речи и эмоций (SER) занимают центральное место, раскрывая их потенциал для многих практических приложений.

(i) Универсальное применение: приложения SER доказывают свою универсальность, находя применение в колл-центрах, радиопередачах, подкастах и ​​телевизионных шоу. Но это не все! Представьте себе интеллектуальный динамик, который улавливает голосовую активность и эмоции в вашем доме и предлагает персонализированные продукты и услуги на основе ваших ощущений. Или как насчет автоматических ярких моментов в спортивной игре, созданных специально для того, чтобы соответствовать эмоциям момента? Возможности безграничны, они охватывают даже интернет-трансляции, такие как Twitch или Netflix.

(ii) Запись настроения аудитории в режиме реального времени: будьте готовы к отслеживанию настроения в реальном времени! Представьте, что у вас есть инструмент для измерения эмоций аудитории в любой момент. Политические переговоры, презентации продуктов — для этой передовой технологии нет слишком грандиозной обстановки. Спикеры теперь могут получать мгновенную обратную связь об эмоциях, которые они вызывают, революционизируя искусство общения в физической, виртуальной или гибридной сферах.

(iii) Индивидуально-ориентированные приложения: распознавание эмоций становится личным, удовлетворяя индивидуальных пользователей и их эмоциональные потребности. Представьте умный динамик или автомобиль, который регулирует музыку или освещение в соответствии с вашими чувствами. В играх алгоритм может помочь при обнаружении гнева. И приготовьтесь к персонализированной рекламе в социальных сетях или на платформах электронной коммерции, где цены динамически меняются в зависимости от вашего эмоционального состояния. Это как иметь собственного эмоционального консьержа!

Но как мы сюда попали? Исследование проводит нас через систематический обзор литературы, разрабатывая два прототипа с использованием машинного обучения и глубокого обучения, а также тщательного обучения модели с использованием обширного массива данных, включающего пять аудиобаз данных.

В подходе машинного обучения фреймворк openSMILE творит чудеса, извлекая признаки, которые затем нормализуются и используются для классификации. Машина опорных векторов (SVM) — это главный классификатор, идентифицирующий различные звуки и семь различных эмоций в речевых файлах. Прототип выдает результаты менее чем за 1000 миллисекунд, покоряя нас своей скоростью и точностью.

Но подождите, это еще не все! Модель глубокого обучения представляет спектрограммы Мела, открывая новое измерение распознавания эмоций. Вместе с TensorFlow в качестве своего надежного компаньона сверточная нейронная сеть (CNN) выходит в центр внимания, осваивая извлечение и классификацию признаков. Ноутбук и Raspberry Pi присоединяются к вечеринке, демонстрируя портативность и эффективность модели.

По мере развития исследования мы становимся свидетелями захватывающего потенциала систем SER в улучшении взаимодействия человека с компьютером. Представьте себе мир, в котором наши устройства понимают наши эмоции, предлагая более человеческие и интуитивно понятные ответы. Это взгляд в будущее коммуникаций!

Но на этом история не заканчивается. Исследование заставляет нас жаждать большего, намекая на будущие направления исследований. Эмоции за пределами шести основных, исследование измерений возбуждения и валентности, исследование машинных действий на основе распознанных эмоций — возможности безграничны. А как насчет различных гиперпараметров для обучения моделей и новых методов обучения? Стремление к более глубокому пониманию и повышению производительности только началось.

Этические вопросы

Одним из основных этических моментов в этой поездке является информированное согласие и конфиденциальность. Должны ли наши эмоции быть честной игрой для тщательного изучения без нашего ведома? Это все равно, что заглянуть в наши эмоциональные дневники без нашего согласия. Прозрачность и получение нашего разрешения на анализ наших эмоций являются ключевыми контрольными точками.

Теперь давайте поговорим о перспективах манипулирования и эксплуатации, вызывающих выброс адреналина. С большой силой приходит и большая ответственность, а захват настроения аудитории в реальном времени не застрахован от злоупотреблений. Представьте, что политики или рекламщики используют ваше эмоциональное состояние в своих интересах. Это похоже на то, как кукольники дергают эмоциональные ниточки за занавеской. Нам нужны гарантии и правила, чтобы держать эту технологию под контролем.

Алгоритмы могут быть коварными дьяволами, улавливающими существующие в нашем мире предубеждения. Если эти предубеждения проникают в технологию, мы смотрим на этическое минное поле. Мы должны обеспечить справедливость для всех, независимо от расы, пола или происхождения.

А как же эмоциональное благополучие? Непрерывный мониторинг без нашего ведома может запутать наш разум. Чувство, что Большой Брат наблюдает за каждой вашей эмоцией, не совсем утешительная мысль. Мы должны защитить наше психическое и эмоциональное здоровье в этой поездке.

Конечно, давайте не будем забывать о точности и надежности — важнейших контрольных точках в нашем путешествии.

Распознавание эмоций не идеально, и полагаться на него при принятии жизненно важных решений — все равно, что доверять американским горкам с отсутствующим болтом. Нам нужна уверенность в том, что технология не оставит нас с ног на голову из-за ложных показаний.

Манипулирование эмоциями для личной выгоды звучит как научно-фантастическая антиутопия, а не наш идеальный тематический парк. Наш выбор и решения должны быть нашими, а не кукловодами подлых уродов, отслеживающих эмоции.

Культурная чуткость обязательна! Эмоции различаются в разных культурах, как вкусы в глобальном буфете. Мы не можем навязать универсальную эмоциональную норму; это все равно, что мазать все арахисовым маслом.

И пока мы на этом, давайте поговорим об алгоритмической прозрачности. Это как застрять в поездке, не зная, как она работает. Нам нужны четкие объяснения того, как эта технология приходит к своим выводам, чтобы мы не застряли в этической петле за петлей.

Нам нужно знать, кто хранит наши эмоциональные данные и что они с ними делают. Это как передать ключи от нашего эмоционального царства; мы лучше понимаем, кто за рулем.

Соблюдая надлежащие меры предосторожности, мы можем гарантировать, что эта технология принесет чудеса, которые она обещает, не оставив нас с этическим похмельем, вызывающим бурление в желудке.

Личное примечание по теме

Мы очень гордимся тем, что успешно внедрили методы распознавания эмоций на маленьком компьютере, таком как Raspberry Pi.

Тем не менее, важно признать потенциальные недостатки, связанные с этим. Хотя я был бы рад, если бы компьютер, с которым я взаимодействую, мог лучше воспринимать мои эмоции, я также опасаюсь случайного обнаружения моих эмоций, когда я не желаю такого раскрытия. Следовательно, мы должны рассмотреть этические последствия, которые скрываются за всем этим исследованием.

В свете этих соображений решающее значение приобретает рассмотрение этических аспектов нашего исследовательского проекта. Благодаря нашим усилиям я искренне надеюсь осветить вдохновляющую тему и спровоцировать содержательные разговоры. Мы ждем ваших отзывов, пока мы вместе проходим это увлекательное исследование.

Научная статья для дальнейшего чтения

Андраде, Д.Э. Де; Бухкремер, Р. Улучшение взаимодействия человека и машины: распознавание эмоций в реальном времени с помощью анализа речи. Дж. Вычисл. науч. Рез. 2023, 5, 22–45, doi:10.30564/jcsr.v5i3.5768.

Если вы нашли это интересным:

Вы можете найти другие мои статьи, а также связаться со мной или связаться со мной вLinkedIn.