Публикации по теме 'speech-recognition'


Применение глубокого обучения в распознавании речи для детей
В этом блоге я расскажу о глубоком обучении и о том, как оно используется в SoapBox Labs для улучшения распознавания речи у детей. Что такое глубокое обучение? Чтобы понять глубокое обучение, нам нужно базовое понимание машинного обучения. Машинное обучение — это группа алгоритмов, которые фокусируются на изучении данных для прогнозирования и принятия решений без какого-либо явного программирования. Обычно это включает в себя обучение модели на огромных объемах данных для изучения..

Исследователи предлагают MIMO-Speech, новую архитектуру нейронной последовательности с последовательностью
Исследователи предлагают MIMO-Speech, новую архитектуру нейронной последовательности В течение долгого времени обработка речи страдала от проблемы с коктейлем, когда речь целевого говорящего запутывалась с шумом от мешающих говорящих. Таким образом, исследователи активно пытались понять сенсорные решения проблемы. Глубокое обучение помогает стимулировать текущие исследования, в которых оно применяется для решения проблем распознавания и разделения речи с несколькими говорящими...

Релиз Open STT 1.0
Наконец-то мы сделали это! TL; DR Это очень краткое сопроводительное сообщение к выпуску Open STT / TTS v1.0 . В двух словах: Open STT публикуется здесь , Open TTS публикуется здесь , набор данных по шуму публикуется здесь ; Мы добавили 2 новых набора данных в 2 новых больших и разнообразных домена с примерно 15 000 часов аннотации ; В новых наборах данных есть настоящие метки динамиков (которые скоро будут выпущены); Улучшено общее качество аннотаций,..

ICASSP 2021  — «Расширение применения звуковых, речевых и языковых технологий с помощью современных…
Еще одна речевая конференция, еще одно виртуальное мероприятие. Хотя научное содержание продолжает продвигаться и развиваться, очевидное отсутствие взаимодействия, обмена идеями и сотрудничества резко контрастирует с личными конференциями прошлого. Несмотря на смелые усилия организатора по развитию коммуникации, например, с введением приложения gather.town , вкладки для разговоров на презентациях оставались пустыми, и даже вопросы во время основных докладов были минимальными. Один из..

Искусственный интеллект перевода африканского языка Khaya добавляет Gurene, Kikuyu, Kimeru & Luo
Приложение Khaya AI расширяется в Северной Гане с добавлением Gurene (альтернативно Frafra или Farefare), а также в Кении с добавлением Kikuyu, Kimeru & Luo. Также включает улучшения распознавания речи Dagbani Далее описывается работа, проделанная командами NLP Ghana и Algorine по демократизации доступа к современным инструментам машинного обучения для ганского и других африканских языков. В частности, он охватывает работу, предшествовавшую выпуску версии 1.0.5 приложения Khaya AI..

Дорожная карта на март 2023 г.: диаризация говорящего, отметка времени на уровне слов и многое другое
После альфа-выпуска Gladia Speech-to-Text AI две недели назад мы получили десятки запросов на новые функции от пользователей альфа-версии, чтобы сделать наш основной API транскрипции аудио в реальном времени еще более захватывающим и универсальным. Мы услышали вас и рады сообщить, что API становится все более надежным с каждой минутой и теперь доступен с большими возможностями — помимо его невероятной скорости и высочайшего качества вывода. Мы невероятно рады создавать наш продукт..

Более общие голоса
Сегодня мы рады сообщить, что Common Voice , инициатива Mozilla по краудсорсингу большого набора данных человеческих голосов для использования в речевых технологиях, становится многоязычной! Благодаря огромным усилиям сообществ Mozilla и наших активных языковых партнеров, теперь вы можете пожертвовать свой голос на немецком, французском и валлийском языках, и мы работаем над тем, чтобы запустить еще 40+ , пока мы говорим. Но это только начало. Мы хотим, чтобы Common Voice стал для..