Публикации по теме 'speech-recognition'
Применение глубокого обучения в распознавании речи для детей
В этом блоге я расскажу о глубоком обучении и о том, как оно используется в SoapBox Labs для улучшения распознавания речи у детей.
Что такое глубокое обучение?
Чтобы понять глубокое обучение, нам нужно базовое понимание машинного обучения.
Машинное обучение — это группа алгоритмов, которые фокусируются на изучении данных для прогнозирования и принятия решений без какого-либо явного программирования. Обычно это включает в себя обучение модели на огромных объемах данных для изучения..
Исследователи предлагают MIMO-Speech, новую архитектуру нейронной последовательности с последовательностью
Исследователи предлагают MIMO-Speech, новую архитектуру нейронной последовательности
В течение долгого времени обработка речи страдала от проблемы с коктейлем, когда речь целевого говорящего запутывалась с шумом от мешающих говорящих. Таким образом, исследователи активно пытались понять сенсорные решения проблемы.
Глубокое обучение помогает стимулировать текущие исследования, в которых оно применяется для решения проблем распознавания и разделения речи с несколькими говорящими...
Релиз Open STT 1.0
Наконец-то мы сделали это!
TL; DR
Это очень краткое сопроводительное сообщение к выпуску Open STT / TTS v1.0 .
В двух словах:
Open STT публикуется здесь , Open TTS публикуется здесь , набор данных по шуму публикуется здесь ; Мы добавили 2 новых набора данных в 2 новых больших и разнообразных домена с примерно 15 000 часов аннотации ; В новых наборах данных есть настоящие метки динамиков (которые скоро будут выпущены); Улучшено общее качество аннотаций,..
ICASSP 2021 — «Расширение применения звуковых, речевых и языковых технологий с помощью современных…
Еще одна речевая конференция, еще одно виртуальное мероприятие. Хотя научное содержание продолжает продвигаться и развиваться, очевидное отсутствие взаимодействия, обмена идеями и сотрудничества резко контрастирует с личными конференциями прошлого. Несмотря на смелые усилия организатора по развитию коммуникации, например, с введением приложения gather.town , вкладки для разговоров на презентациях оставались пустыми, и даже вопросы во время основных докладов были минимальными. Один из..
Искусственный интеллект перевода африканского языка Khaya добавляет Gurene, Kikuyu, Kimeru & Luo
Приложение Khaya AI расширяется в Северной Гане с добавлением Gurene (альтернативно Frafra или Farefare), а также в Кении с добавлением Kikuyu, Kimeru & Luo. Также включает улучшения распознавания речи Dagbani
Далее описывается работа, проделанная командами NLP Ghana и Algorine по демократизации доступа к современным инструментам машинного обучения для ганского и других африканских языков. В частности, он охватывает работу, предшествовавшую выпуску версии 1.0.5 приложения Khaya AI..
Дорожная карта на март 2023 г.: диаризация говорящего, отметка времени на уровне слов и многое другое
После альфа-выпуска Gladia Speech-to-Text AI две недели назад мы получили десятки запросов на новые функции от пользователей альфа-версии, чтобы сделать наш основной API транскрипции аудио в реальном времени еще более захватывающим и универсальным.
Мы услышали вас и рады сообщить, что API становится все более надежным с каждой минутой и теперь доступен с большими возможностями — помимо его невероятной скорости и высочайшего качества вывода.
Мы невероятно рады создавать наш продукт..
Более общие голоса
Сегодня мы рады сообщить, что Common Voice , инициатива Mozilla по краудсорсингу большого набора данных человеческих голосов для использования в речевых технологиях, становится многоязычной! Благодаря огромным усилиям сообществ Mozilla и наших активных языковых партнеров, теперь вы можете пожертвовать свой голос на немецком, французском и валлийском языках, и мы работаем над тем, чтобы запустить еще 40+ , пока мы говорим. Но это только начало. Мы хотим, чтобы Common Voice стал для..