Публикации по тегам speech-recognition

Публикации по теме 'speech-recognition'

Автоматическое распознавание речи с использованием глубокой речи

Введение «Человеческий Голос — самый совершенный инструмент из всех» — Арво Пярт Вы это где-то слышали, но не акцентируете до сих пор. Но теперь вы используете его так же, как и инструменты, будь то использование распознавания речи Google или голосовое сообщение Alexa. Что у них особенного? Как они работают? Это будет сделано вами в течение 10 строк кода. Давайте начнем Сегодня доступно множество облачных API распознавания речи. Google Cloud Speech API и IBM Watson..

Сквозное распознавание речи

Часть 3: Понимание различных подходов Из предыдущей статьи вы теперь знаете, какие функции можно извлечь из формы звуковой волны и где их можно использовать в различных задачах обработки речи. В этой статье мы раскроем черный ящик , то есть метод или подход, с помощью которого аудио можно преобразовать в расшифровку. Что может быть лучше, чем рассказать об этом через историю ?!?!? Давным-давно в далекой-далекой галактике одно из самых могущественных существ призвало трех..

Является ли распознавание речи жизнеспособной технологией для бизнеса?

Является ли распознавание речи жизнеспособной технологией для бизнеса? Как вам идея говорить по-английски, а программное обеспечение переводит и читает его на китайском языке за считанные секунды? А как насчет идеи управлять своим умным домом с помощью голоса или мгновенно генерировать расшифровки аудиозаписей? Это и многое другое возможно уже сегодня. Что с этим можно сделать? Это сообщение первоначально появилось здесь . Не стесняйтесь подписываться на нас в Facebook ,..

Unomi3DLS x Майя

В этом документе описан процесс создания подробных трехмерных речевых анимаций в Unomi, а также прикрепления этих анимаций к любым вашим творениям в Maya. Предисловие Чтобы получить потрясающую анимацию 3D Lip Sync, нам нужен набор форм смешивания для различных фонетических звуков, которые может издавать наш персонаж. Unomi использует машинное обучение, чтобы находить синхронизацию фонетических звуков и создавать подробные речевые анимации. Как только мы настроим эти формы..

Векторы (модели) глубокого обучения для идентификации патологической речи

Аннотация. Данная работа заключается в создании системы автоматической идентификации непрерывной арабской речи с большим словарным запасом в режиме одного динамика. Основная идея заключалась в сравнении расшифрованной последовательности арабской речи и эталонной модели, которую мы будем вычислять, опираясь на биективную связь между речью и ее фонетической транскрипцией. Генерируются два вектора: один представляет собой эталон, обобщающий вероятность появления арабских бифонем, а другой дает..

Как максимально эффективно использовать избыток данных - адаптация домена

Серия из трех блогов, посвященных реальности избытка данных в мире, который все больше и больше ориентируется на данные. В этой серии статей я предложу возможные решения проблемы избытка данных, от советов о том, как тренироваться на избытке данных и советов о том, как сократить объем данных до наиболее важных примеров, до практических советов о том, как использовать избыток данных в одном домене для повышения производительности в другом домене. Хотите прочитать всю серию? Скачайте мою..

Microsoft выпускает Speech Corpus для трех индийских языков

Направлено на помощь исследователям и академическим кругам в развитии распознавания речи на индийском языке. Microsoft India объявила о выпуске Корпуса речи Microsoft на индийском языке , предлагающего обучение речи и тестовые данные для телугу , тамильского и Гуджарати . Это самый крупный общедоступный набор речевых данных на индийском языке, который включает аудио и соответствующие транскрипции , - говорится в заявлении Microsoft. Он направлен на то, чтобы помочь..