Автономное преобразование речи в текст на Raspberry Pi Zero?

Еще в начале года мы дошли до некоторых слухов о стартапе под названием Picovoice, который оборачивал обнаружение пробуждающих слов, а также механизмы преобразования речи в намерение и преобразования речи в текст, все в автономном режиме. без подключения к Интернету.

На прошлой неделе мы наконец получили более подробную информацию.

Три голосовых движка; Porcupine для обнаружения пробуждающего слова, Rhino для преобразования речи в намерение и Cheetah для преобразования речи в текст - все они работают на устройстве без подключения к сети.

Идея здесь заключается в том, что компания обратится к Picovoice, чтобы построить для них модель для конкретной предметной области, и, сохраняя модели, характерные для определенного продукта, такого как кофеварка или телевизор, модель может поддерживать высокую точность внутри многих снижение потребности в ресурсах. Они утверждают, что их движки будут выполнять преобразование речи в текст в реальном времени на Raspberry Pi Zero или даже локально в веб-браузере. Облако не требуется.

Это означает, что, в отличие от большинства современных голосовых машин, ваши разговоры не выходят из дома. Учитывая текущие проблемы, связанные с« аудитом качества людьми», это довольно интересно. Прямо сейчас все ваши голосовые помощники слушают вас, но и люди, стоящие за ними. Внезапно это делает конфиденциальность снова преимуществом.

Но хотя у нас есть некоторые дополнительные сведения и более подробный взгляд на сами движки - все три движка теперь доступны на Github компании - это еще только начало. Это означает, что если вы заинтересованы в использовании движков в некоммерческих или оценочных целях, вы можете самостоятельно создать голосовое приложение, используя один из движков.

Но если вы думаете о создании продукта на основе новых движков, вам нужно связаться с их корпоративной командой. Хотя неясно, сколько будет стоить лицензирование движков для использования в реальном продукте, как и в случае с большим количеством корпоративных инструментов, цена, скорее всего, будет такой, какой будет на рынке.

Однако само существование такого рода инструментов, а также других шагов, упрощающих использование машинного обучения неспециалистам, является признаком того, что экосистема периферийных вычислений начинает созревать.