Делимся нашим общим голосом - Mozilla выпускает второй по величине набор общедоступных голосовых данных

С момента запуска Common Voice мы собрали сотни тысяч образцов голоса через наш сайт и приложение для iOS. Сегодня мы выпускаем первую версию этой голосовой коллекции в общественное достояние.

С самого начала Mozilla полагалась на творчество, сострадание и находчивость людей во всем мире, чтобы помочь нам создать и продвигать Интернет как глобальный общедоступный ресурс, доступный для всех. Это стало основой нашей экспериментальной работы в области машинного обучения и распознавания речи и создания большого высококачественного ресурса голосовых данных с помощью Common Voice.

Эта коллекция содержит около 400 000 записей от 20 000 разных людей, что составляет около 500 часов выступления. На сегодняшний день это уже второй по величине общедоступный набор голосовых данных, о котором мы знаем, и люди по всему миру постоянно добавляют и проверяют новые образцы!

Вы можете пойти скачать данные прямо сейчас!

Убедившись в том, насколько сложно найти общедоступные данные для нашей работы с речевыми технологиями, мы также предоставляем ссылки на все другие большие коллекции голосовых сообщений, о которых мы знаем на сайте. И мы стремимся продолжать развивать веб-сайт в качестве центрального узла для голосовых данных.

Когда мы смотрим на сегодняшнюю экосистему голосовой связи, мы видим множество разработчиков, производителей, стартапов и исследователей, которые хотят экспериментировать с голосовыми технологиями и создавать их. Но у большинства из нас есть доступ только к довольно ограниченному набору голосовых данных; важный компонент для создания высококачественных механизмов распознавания речи. Эти голосовые данные могут стоить более десятков тысяч долларов, и их недостаточно для распознавания речи на ожидаемом уровне. Предоставляя этот новый общедоступный набор данных, мы хотим помочь преодолеть эти препятствия и упростить создание новых и более совершенных систем распознавания речи (например, нашей собственной Deep Speech). Мы начали с английского, но скоро будем поддерживать все языки. Благодаря нашей параллельной работе над механизмом преобразования речи в текст с открытым исходным кодом мы надеемся открыть речевые технологии, чтобы больше людей могли участвовать, внедрять инновации и соревноваться с более крупными игроками.

Вы заинтересованы в том, чтобы узнать о нашем проекте распознавания речи с открытым исходным кодом Deep Speech и о том, как данные Common Voice могут быть использованы для создания более совершенных продуктов для распознавания речи? Рубен Мораис из группы машинного обучения Mozilla только что опубликовал статью об их Пути к . Он представляет собой убедительное резюме проблем и уроков, полученных во время работы над первой моделью движка распознавания речи с открытым исходным кодом, которая была выпущена сегодня в их репозитории github!

Мы продолжаем приветствовать сотрудников Common Voice. Пожалуйста, поделитесь своими идеями о том, как мы можем работать вместе, чтобы сообщить нам, как вы используете данные, или высказать свое мнение о том, как этот проект может быть более полезным.

Благодарим Майкрофт, СНИПС, Университет Бангора, LibriSpeech, VoxForge, TED-LIUM, Tatoeba.org, Mythic, SAP и, конечно же, все наши участники на github. Без вас мы не смогли бы добиться такого прогресса!

Мы также постоянно стремимся улучшить качество нашего набора данных. Перейдите на сайт Common Voice прямо сейчас и помогите нам проверить записи, что не менее важно, чем пожертвовать свой голос.

Делимся нашим общим голосом - Mozilla выпускает второй по величине набор общедоступных голосовых данных

Вопросы по теме