Публикации по теме 'speech-recognition'


Radio-ASR становится открытым исходным кодом
Deepwave Digital открыла исходный код нашего проекта Radio Automatic Speech Recognition (Radio-ASR). Открыв исходный код этого программного обеспечения, мы надеемся, что сообщество будет использовать и улучшать его, чтобы повысить его полезность для беспроводного распознавания речи в текст. Мы призываем сообщество разработчиков открытого исходного кода расширить это, чтобы интегрировать более сложные типы сигналов и включить последние модели ASR. Вот ссылка на Radio-ASR на нашей странице..

Играем с Google Cloud Platform API «речь в текст»
Мне любопытно посмотреть, как API Google для преобразования речи в текст работает в дикой природе, «из коробки». Я хочу опробовать API на реальном объекте, чтобы оценить его эффективность в условиях студийного качества. Да, я знаю, не совсем «реальный мир», но мне интересно посмотреть, как это будет с шикарным британским акцентом. Выбор источника звука Для этого я решил скачать последний новостной репортаж со Sky News в Великобритании и запустить его через API. Вы можете найти его..

Обнаружение триггерного слова
1.1 введение: Одной из основных проблем в ASR (автоматическое распознавание речи) является шумоподавление и потребление энергии/ресурсов. Добавленный шум необходимо удалить при предварительной обработке аудиосигналов, шумоподавление применяется не только к голосу, но и к различным областям, например, в случае обработки изображений. Но, к сожалению, звуковые волны и системы ASR более восприимчивы к этим шумам, чем любая другая система. Следовательно, в первой части нашего проекта мы..

Обзор методов распознавания звука
Случаи применения Распознавание звука - это метод определения того, являются ли два аудиоклипа «одинаковыми»; то есть распознавать аудио как что-то уже известное. Вот некоторые из причин, по которым мы могли бы захотеть это сделать: · Поиск информации . Всем нам знакомо чувство, когда мы слышим музыкальное произведение, которое нам действительно нравится, и задаемся вопросом, что это такое. Если эта информация не будет сообщена нам, мы сможем выяснить это с помощью распознавания..

Является ли Local действительно Lekker, когда дело доходит до моделей транскрипции?
Является ли Local действительно Lekker, когда дело доходит до моделей транскрипции? Тестирование различных моделей Amazon Transcribe на большом наборе данных голосовой почты на английском языке из Южной Африки. Ближе к концу 2021 года мы опубликовали блог под названием Насколько точен Amazon Transcribe на южноафриканском английском? . В этом блоге мы глубоко изучили точность Amazon Transcribe в нашем наборе данных, помеченном толпой, и пришли к выводу, что коэффициент ошибок в..

Что можно и чего нельзя делать с помощью машинного обучения
Ирвинг Владавски-Бергер Искусственный интеллект быстро становится одной из важнейших технологий нашей эпохи. Каждый день мы можем читать о последних достижениях в области искусственного интеллекта от стартапов и крупных компаний. За последние несколько лет собрались необходимые ингредиенты, чтобы перевести ИИ через порог : мощные и недорогие компьютерные технологии; огромное количество данных; и продвинутые алгоритмы, особенно машинное обучение . Машинное обучение позволило ИИ обойти..

Голосовая классификация/распознавание против распознавания речи
«Привет! Я Бонд, Джеймс Бонд!!» Всякий раз, когда мы слышим эту фразу, мы вспоминаем легендарного Джеймса Бонда. Навсегда мы знаем этот голос и фразу. но этот эпический голос не в состоянии понять Машиной. Но если машина сможет распознать вас, поприветствовать вас и преобразовать ваш голос, тогда все любят Siri!! правильно? В машинном обучении существует множество моделей распознавания речи. Известная и используемая по умолчанию библиотека SpeechRecognition. С помощью некоторой..