Публикации по тегам speech

Публикации по теме 'speech'

Распознавание речи с использованием Javascript

В этой статье мы узнаем, как использовать Javascript для добавления функции распознавания речи в любое веб-приложение. Для распознавания речи мы будем использовать Web Speech API , который в настоящее время доступен только в Chrome для Desktop и Android . Теперь давайте посмотрим на веб-приложение, которое мы собираемся создать. Он имеет заголовок, текстовое поле для отображения расшифровки распознанной речи и две кнопки для управления распознаванием речи. Для..

Interspeech 2019 ГОЛОСЫ с дистанции Challenge

Interspeech 2019, прошедший в Граце, Австрия, собрал экспертов со всего мира, чтобы обсудить некоторые из последних достижений в области технологий на стыке речи и языка. Сеансы по автоматическому распознаванию речи (ASR), идентификации говорящего (SID) и генерации речи, среди многих других, были полны захватывающих обновлений. На Lab41 мы были рады провести вместе с SRI International одну из 10 специальных сессий и задач - VOiCES from the distance challenge. Задача была..

Фонема-BERT: совместное языковое моделирование последовательности фонем и транскрипта ASR

Этот блог относится к нашему техническому документу , принятому на Interspeech 2021 , Чехия. Проблема под рукой Системы автоматического распознавания речи (ASR) не могут расшифровывать реальные звонки со 100% точностью. Ошибки вставки, замены и удаления отрицательно влияют на производительность систем машинного обучения для последующих задач, таких как обнаружение намерений и слотов, распознавание сущностей и классификация настроений. Как мы можем разработать языковую..

ML: работа с аудиоданными

Фон В машинном обучении инженерам приходится иметь дело с различными данными, начиная от числовых, категориальных, изображений, видео, речи и т. д. В этой статье основное внимание будет уделено аудиоданным, используемым в таких действиях, как распознавание речи, преобразование речи в текст, преобразование текста в - речь, звуковая классификация и т. д. Действия, связанные с этими данными, включают, но не ограничиваются: захват аудио сохранение захваченного аудио воспроизведение..

Транскрипция видео с YouTube с помощью Whisper в несколько строк кода

Действительно хорошая модель с открытым исходным кодом для многоязычного преобразования речи в текст. OpenAI недавно открыл исходный код Whisper , нейронной сети, которая приближается по надежности и точности к человеческому уровню при распознавании речи на нескольких языках. Модель была обучена на 680 000 часов многоязычных и многозадачных контролируемых данных, собранных из Интернета. Использование такого большого и разнообразного набора данных приводит к повышению..

Синтез текста в речь: обзор

В моем детстве одним из самых забавных взаимодействий с компьютером было заставить его читать сказку. Вы можете скопировать текст в окно и вскоре послушать, как бесцветный металлический голос пробирается через запятые и перестает плести рассказ со странным акцентом. По тем временам это было чудо. В настоящее время цель TTS - технологии преобразования текста в речь - состоит не в том, чтобы просто заставить машины разговаривать, а в том, чтобы заставить их звучать как люди разного..

Как машинам понравилась инаугурационная речь Трампа?

Ниже приводится быстрый и простой анализ последних семи инаугурационных речей с использованием Google Clouds Natural Language API. Я применил стандартный анализ настроений к текстам и нанес на график два полученных значения для оценки и величины. Оценка описывает общее настроение текста в диапазоне от -1 до 1. Величина указывает на силу эмоций и не нормализована, что означает, что более длинный текст имеет тенденцию давать более высокие значения. Однако это не должно быть проблемой, так..