ICASSP 2021 — «Расширение применения звуковых, речевых и языковых технологий с помощью современных…

Еще одна речевая конференция, еще одно виртуальное мероприятие. Хотя научное содержание продолжает продвигаться и развиваться, очевидное отсутствие взаимодействия, обмена идеями и сотрудничества резко контрастирует с личными конференциями прошлого. Несмотря на смелые усилия организатора по развитию коммуникации, например, с введением приложения gather.town, вкладки для разговоров на презентациях оставались пустыми, и даже вопросы во время основных докладов были минимальными. Один из наших коллег, у которого на днях была личная встреча со своей командой, сказал нам: То, что мы сделали за один час сегодня вечером, заняло бы недели с помощью видеозвонков. Несмотря на то, что у виртуальных конференций было много преимуществ с точки зрения того, что они стали более доступными для людей во всем мире и сделали научный контент более доступным для поиска, мы считаем, что этот комментарий эффективно подводит итог зияющей дыре, которую вызывает отсутствие личных научных встреч. оставил.

Тем не менее, в этом году на ICASSP было представлено несколько отличных статей с новыми инновационными идеями, связанными с полууправляемым репрезентативным обучением, уменьшением задержки потоковой передачи, алгоритмами классификации, зависящими от распознавания речи, созданием голосовых интерфейсов, более доступных для людей с нетипичной речью, среди многих другие. Вот некоторые из наших лучших вариантов бумаги:

Основные моменты бумаги

Доклад №1 — Расширение Parrotron: сквозная модель преобразования речи и распознавания речи для нетипичной речи

Войны автоматического распознавания речи (ASR) продолжаются, и многие компании и академические группы борются за самый низкий уровень ошибок в словах (WER). Хотя ASR был приложением, которое привело к множеству фундаментальных достижений в машинном обучении, по общему признанию, эти сеансы могут быть немного утомительными. Однако эта статья от Google действительно привлекла наше внимание, в частности, из-за ее потенциальной социальной пользы. На сегодняшний день люди с нарушениями речи в значительной степени лишены возможности эффективно использовать голосовые интерфейсы, и в этой статье описываются некоторые исследования, направленные на решение этой проблемы. Подход включает в себя применение системы преобразования голоса Parrotron, которая ранее применялась для получения беглой речи из нетипичной речи. Система расширена для одновременного преобразования голоса и ASR, и результаты показывают, что после часа нетипичной речи адаптация может привести к существенным улучшениям WER. В статье также представлен анализ положительного адаптационного эффекта при различных нарушениях речи.

Доклад №2 — Совместная идентификация ASR и языка с использованием RNN-T: эффективный подход к динамическому переключению языков

Автоматическое преобразование речи в текст в ситуации, когда говорящие динамически переходят с одного языка на другой (так называемое «переключение кода»), пожалуй, самая сложная задача для современной обработки речи. Этот документ принимает вызов и накладывает два дополнительных сложных требования потоковой обработки и аппаратных ограничений для вычислений на устройстве. В представленном здесь исследовании оцениваются различные архитектуры моделей на основе RNN-t с многозадачным обучением по сравнению с задачами идентификации языка и минимизации частоты ошибок в словах. Эксперименты, проведенные с аудиоданными с использованием как английского, так и хинди, снова подчеркивают, насколько сложной является эта задача многоязычного распознавания, однако используемый здесь подход действительно делает некоторые важные шаги вперед в реализации этой технологии в практических коммерческих приложениях.

Документ № 3 — Сравнение моделей дискретных латентных переменных для обучения представлению речи

Поиск существенных, многократно используемых функций с помощью репрезентативного обучения был сложной задачей для акустической обработки речи. Другие дисциплины, такие как компьютерное зрение и обработка естественного языка (NLP), нашли эффективные способы полуконтролируемого изучения признаков, но, наконец, в последние несколько лет обработка речи наверстывает упущенное. Эта статья от Facebook AI Research представляет собой довольно простое сравнение различных подходов к репрезентативному обучению. Иногда небольшое, целенаправленное, но хорошо выполненное исследование может быть наиболее убедительным, особенно если оно ограничено форматом доклада конференции. Эта газета — отличный тому пример. Основной вывод из этой статьи заключается в том, что подходы к контрастному обучению намного превосходят автокодирование для изучения особенностей речи (по крайней мере, для задач распознавания фонем).

Доклад №4 — Классификация неконтролируемых и полуконтролируемых акустических событий с несколькими выстрелами

Эта статья исследователей из Калифорнийского университета и Amazon основана на недавней статье Facebook AI о VQ-wav2vec (подход к репрезентативному обучению с самоконтролем для аудио, который создает дискретные выходные данные, которые можно использовать в качестве входных данных для моделей НЛП). Здесь подход VQ-wav2vec применяется к задаче классификации малократных акустических событий.
Контрастное обучение используется для разработки модели VQ-wav2vec, которая выдает дискретный результат. Дискретные выходные данные можно использовать в качестве входных данных для архитектуры модели BERT, разработанной для задач НЛП.
Обучение BERT адаптировано для аудио, а выходные данные затем используются в качестве представления для классификации акустических событий, когда доступно всего несколько эталонных образцов. . Результаты показывают, что хотя стандартный подход wav2vec более эффективен, чем VQ-wav2vec (при прямом сравнении). Однако, если вы дополнительно включите обучение BERT с дискретным выходом VQ-wav2vec, вы можете получить значительный прирост точности.

Документ № 5 — На пути к немедленной генерации обратного канала с использованием модели раннего прогнозирования на основе внимания

Для приложений реального времени задержка обычно является серьезной проблемой. Когда вы используете потоковую ASR в качестве шага предварительной обработки восходящего потока, возникающая задержка может привести к ухудшению взаимодействия с пользователем в определенных случаях использования. В этой статье, написанной исследователями из Hitachi, предлагается новый подход к смягчению этой проблемы задержки. Исследование сосредоточено на применении генерации обратных каналов в системах разговорного диалога. Предлагаемое решение включает в себя использование сетевой архитектуры долговременной памяти (LSTM), основанной на внимании, но, что интересно, с функцией ошибки ранней потери, которая позволяет делать ранние прогнозы до завершения высказывания.

Документ № 6 — Генерация эмпатических ответов путем введения ожидаемых эмоций

В последнее время наблюдается растущий интерес к включению восприятия эмоций в разговорные системы, основанные на речи. Эта статья, подготовленная исследователями из Харбинского технологического института, посвящена созданию чутких автоматизированных голосовых ответов. Подход предполагает использование вспомогательной задачи распознавания по оценке ожидаемой эмоции на основе анализа предыдущих высказываний говорящего. Авторы представляют многообещающие результаты в наборе данных EmpDialogue, и это направление исследований прокладывает путь к голосовым помощникам, которые отвечают как запрошенной информацией, так и передают ее в желаемом пользователем стиле речи.

Доклад №7 — Wave-Tacotron: Сквозной синтез речи без спектрограмм

Система синтеза текста в речь (TTS) Tacotron, оснащенная модулем генерации аудиосемплов WaveRNN, произвела революцию в области TTS несколько лет назад, создав действительно естественно звучащую синтетическую речь. Одна большая нерешенная проблема с системой Tacotron заключается в том, что она слишком затратна в вычислительном отношении, требует значительного и дорогостоящего вычислительного оборудования даже во время логического вывода и, как правило, с высокой степенью задержки. Первоначальная архитектура Tactotron включает два этапа: первый — генерация спектрограммы, а второй — генерация образцов сигналов. Подход, описанный в настоящей статье, позволяет избежать этого двухэтапного процесса и использует подход полного сквозного обучения, при котором модель генерирует блоки звуковых образцов, а не промежуточную спектрограмму. Блоки сэмплов могут быть просто объединены вместе для создания выходной синтетической речи. Хотя результаты естественности не так хороши, как у оригинальной системы Tacotron, сообщается о существенном выигрыше с точки зрения снижения вычислительной нагрузки и продолжительности шагов логического вывода.

Доклад №8 — Контрастное обучение без учителя для распознавания речи и эмоций

Как упоминалось выше, распознавание речевых эмоций привлекает повышенное внимание исследователей, в частности, из-за потенциала во многих коммерческих приложениях, таких как Amazon Alexa. В этой статье, подготовленной командой из Amazon в сотрудничестве с исследователями из Чикагского университета, приводится еще один пример контрастного предварительного обучения — здесь он применяется к проблеме распознавания речевых эмоций. Авторы используют контрастное прогностическое кодирование (CPC) для неконтролируемого изучения признаков на большом немаркированном речевом корпусе (в данном случае LibriSpeech), прежде чем использовать изученные представления в качестве входных данных для сети классификации эмоций, веса которой обучаются на IEMOCAP и MSP. Наборы данных подкаста.

Доклад №9 — Распознавание эмоций по речи на основе адаптивных моделей слушателя

Из-за субъективного характера восприятия эмоций из речи разные слушатели могут иметь разные впечатления от передаваемой эмоции и часто могут проявлять разумную степень несогласия. В этом исследовании исследователи из NTT предлагают адаптивную модель слушателя (LA), которая включает информацию слушателя в архитектуру модели через три уровня адаптации. Первоначальные результаты этого исследования показывают, что кодирование информации о слушателях при обучении с помощью слоев адаптации может повысить точность классификации. Авторы обнаружили, что адаптационные уровни, соседние со слоями решений классификации, были особенно эффективными.

Доклад №10 — LSSED: крупномасштабный набор данных и эталон для распознавания речи и эмоций

Последняя статья, связанная с эмоциями, которую мы хотим выделить, направлена на решение проблемы объема данных, которая преследует дисциплину распознавания речевых эмоций, поскольку модели глубокого обучения, требующие больших объемов данных, снова стали популярными. Набор данных LSSED, который был собран авторами, имеет общую продолжительность более 200 часов, что делает его в несколько раз больше, чем почти все другие доступные наборы данных, возможно, за исключением набора данных MSP-PodCast. Хотя метод извлечения данных означает, что речь не является полностью естественной (по общему признанию, она намного более естественна, чем притворная эмоциональная речь), сам размер набора данных делает его потенциально очень ценным для сообщества исследователей речи, когда он публикуется на этой странице GitHub. ».

Продолжающееся влияние обработки звука и речи

На этом мы завершаем наш обзор статей ICASSP 2021. Влияние обработки звука и речи на современные коммерческие приложения не показывает никаких признаков замедления, и, судя по докладам на конференции этого года, соответствующие научные исследования также продолжаются очень быстрыми темпами. Сложные проблемы, такие как нехватка наборов данных, слишком тяжелые вычислительные модели для поддержки реальных вариантов использования, проблемы с задержкой, отсутствие повторно используемых представлений, погрешность в точности для разных типов голосов — все они быстро решаются. До встречи (надеюсь лично) в следующем году!

Возможности Cogito

Если вы находитесь в США, ЕС (Ирландии) или Индии и заинтересованы в возможностях в Cogito, посетите нашу страницу вакансий! У нас есть необязательная политика офиса, которая поощряет удаленную работу и совместную работу!

Благодарности

Эта статья была написана совместно членами группы обработки сигналов и машинного обучения Cogito вместе с Омкаром Прабху после участия в виртуальной конференции ICASSP 2021. Спасибо также Яну Келли за корректуру.