Это первая статья из серии об этике распознавания речи и эмоций.
Вторую статью вы можете найти здесь:



Уже некоторое время я работаю над распознаванием речи, эмоций (SER). Эта технология быстро развивается, и, прежде чем вы это узнаете, она будет реализована во многих автоматизированных системах распознавания речи, таких как смарт-динамики повсюду в нашей жизни и во всех тех автоматизированных системах обслуживания клиентов, на которые мы кричим, чтобы связать нас с живым представителем. Однако при использовании этой технологии возникает множество этических проблем, на которые необходимо ответить как можно скорее, чтобы предотвратить значительный ущерб конфиденциальности пользователей и крупные судебные иски, которые могут возникнуть из-за проблем, созданных SER.

Да, интересное поле для работы!

В следующие недели я постараюсь осветить некоторые из этих проблем. Но давайте сначала официально представим SER и варианты его использования. Следующее скопировано из одной из моих статей в 2021 году.



Как я упоминал ранее, распознавание речевых эмоций (SER) — это задача распознавания эмоций по речевым сигналам, что является важным шагом в улучшении взаимодействия человека с компьютером. Понимание своих чувств во время общения конструктивно для понимания разговора и соответствующего реагирования. Это возможно в основном за счет применения методов глубокого обучения для обработки сигналов. И у него много вариантов использования.

Например, автоматический SER помогает умным динамикам и виртуальным помощникам лучше понимать своих пользователей, особенно когда они распознают сомнительные слова. Например, термин «Действительно» может использоваться для того, чтобы подвергнуть сомнению факт или подчеркнуть положительное или отрицательное утверждение. Например, прочитайте по-разному следующие предложения: «Мне очень понравилось, что у меня есть этот инструмент». Кроме того, одно и то же приложение может помочь переводить с одного языка на другой, тем более что в других языках используются разные способы передачи эмоций через речь.

SER также полезен в интерактивных онлайн-учебниках и курсах. Понимание эмоционального состояния ученика поможет машине решить, как представить остальную часть содержания курса. Распознавание речи и эмоций также может быть очень полезным для обеспечения безопасности транспортных средств. Он может распознавать душевное состояние водителя и помогать предотвращать аварии и катастрофы. Другое родственное применение — сеансы терапии. Используя SER, терапевты поймут текущее состояние своих пациентов, а также, возможно, лежащие в их основе скрытые эмоции.

Было доказано, что в стрессовых и шумных условиях, таких как кабины самолетов, применение SER может значительно повысить производительность систем автоматического распознавания речи. Кроме того, сфера услуг и электронная коммерция могут использовать распознавание речи и эмоций в колл-центрах, чтобы своевременно оповещать службу поддержки клиентов и супервайзеров о настроении звонящего. Кроме того, было предложено реализовать распознавание речи и эмоций в интерактивных фильмах, чтобы понимать эмоции зрителей. Затем интерактивный фильм может идти по разным маршрутам и иметь разные концовки.

Во всех упомянутых приложениях есть гигантский слон, который ест попкорн и наблюдает за нами, конфиденциальностью потребителей!

Конфиденциальность — одна из наиболее важных этических проблем, связанных с SER. Эту технологию можно использовать для анализа эмоций человека без его ведома или согласия. Системы, способные к SER, могут принимать решения за вас, а компании могут предлагать вам услуги или отказываться от них, основываясь на своей оценке ваших эмоций и вашего «душевного состояния». Это намного выше, чем распознавание лица или говорящего. Это может решить, что кто-то кукушка! Этот уровень вторжения в частную жизнь беспрецедентен. А с уровнем доступных технологий SER, возможно, уже был реализован в одной из ваших любимых умных колонок.

Основываясь на моем исследовании, еще не было проведено всестороннего исследования того, как контролировать и приручать этого зверя. Тем не менее, несколько газет попытались внедрить конфиденциальность в свои методы распознавания, чтобы получить систему распознавания, ориентированную на конфиденциальность. Кроме того, несколько других опубликованных работ были сосредоточены на борьбе с вторжением путем создания состязательных методов.

Одним из примеров нескольких попыток поставить конфиденциальность на первое место в SER является работа Vasileios Tsouvalas et al.



Они предлагают подход SER, сохраняющий конфиденциальность, с использованием парадигмы распределенного машинного обучения, называемой Federated Learning (FL). Существующие подходы SER централизованы и не учитывают конфиденциальность пользователей. Но федеративное обучение предлагает способ совместной работы над моделями обучения без обмена локальными данными и нарушения конфиденциальности пользователей. Предлагаемый подход объединяет полусупервизию с федеративным обучением, что решает серьезные проблемы нехватки меток данных и правил конфиденциальности, с которыми сталкивается SER. Эксперименты с набором данных IEMOCAP показывают, что предлагаемый подход, в котором всего лишь 10 % помеченных данных, в среднем может повысить уровень распознавания на 8,67 % по сравнению с другими полностью контролируемыми федеративными подходами. Это первый объединенный подход SER, который изучает модели, используя как помеченные, так и немаркированные образцы на пользовательских устройствах. Предлагаемый подход использует механизм внимания для улучшения представления моделей SER без увеличения их сложности.



С другой стороны, в качестве примера состязательной атаки на системы SER с целью сохранения конфиденциальности пользователя Брайан Теста и др. представить решение для обхода классификаторов распознавания эмоций речи (SER) черного ящика, которые привязаны к умным динамикам.



Предлагаемый метод использует генетическое программирование для создания неинвазивных аддитивных звуковых возмущений (AAP), которые могут защитить точность транскрипции при одновременном снижении производительности классификатора SER. Они называют это победой над акустическим распознаванием эмоций с помощью генетического программирования (DARE-GP). Их система использует спектральные функции, позволяющие перенести AAP на ранее невиданные классификаторы SER. Оценки в документе завершаются акустическими оценками двух готовых коммерческих интеллектуальных динамиков, где один AAP может обойти классификатор черного ящика более чем в 70% случаев. В документе делается вывод, что DARE-GP превосходит современные методы обхода SER и устойчив к средствам защиты, используемым осведомленным противником.

В следующей мини-статье я расскажу о прозрачности и согласии, предвзятости и справедливости в мире SER. Оставайтесь с нами!

В следующей мини-статье я расскажу о прозрачности и согласии, предвзятости и справедливости в мире SER. Оставайтесь с нами!