Наконец-то мы сделали это!
TL; DR
Это очень краткое сопроводительное сообщение к выпуску Open STT / TTS v1.0.
В двух словах:
- Open STT публикуется здесь, Open TTS публикуется здесь, набор данных по шуму публикуется здесь;
- Мы добавили 2 новых набора данных в 2 новых больших и разнообразных домена с примерно 15 000 часов аннотации;
- В новых наборах данных есть настоящие метки динамиков (которые скоро будут выпущены);
- Улучшено общее качество аннотаций, исправлено большинство краевых случаев аннотаций;
- Значительно улучшена нормализация набора данных;
Открытое резюме STT
Некоторое время назад мы были разочарованы состоянием (скоро выйдет более доработанная статья) STT в целом (по сравнению, например, с Computer Vision), особенно на русском языке.
В целом он страдает от многих проблем: (i) небольшие / не очень полезные / не всегда общедоступные академические наборы данных (ii) огромные непрактичные решения (iii) громоздкие / устаревшие / непрактичные наборы инструментов (iv) отрасль с большой историей и уже пережитая из-за ошибки SOTA (v) отсутствие рабочих решений без слишком большого количества условий.
Поэтому мы решили создать с нуля набор данных для русского языка, а затем построить набор предварительно обученных развертываемых моделей на основе набора данных. А потом, возможно, охватите еще пару языков.
Open STT, возможно, является самым большим / лучшим открытым набором данных STT / TTS, который существует сейчас. Пожалуйста, перейдите по ссылкам выше, чтобы узнать больше.
Основные функции в последних выпусках
Основные моменты последнего выпуска:
- См. Вышеупомянутые маркеры TLDR;
- Метки спикеров для новых наборов данных;
- Набор данных теперь доступен как
.wav
файлы через торрент (я использую канал 1 Гбит / с) и как.mp3
файлы через прямую ссылку для загрузки (также высокая скорость загрузки); - Небольшой набор проверочных данных с ручными аннотациями (18 часов), охватывающий 3 основных домена;
- Общее улучшение качества модели разведки и добычи;
- Больше никаких «болтающихся» букв;
- Улучшено обнаружение голосовой активности;
- Значительно улучшенная нормализация набора данных;
- Очевидно, что аннотация не идеальна, но время от времени мы добавляем исключаемые списки, когда добавляем новые данные, чтобы отфильтровать наиболее неприятные случаи;
Возможное использование:
- Речь в текст (очевидно);
- Снижение шума (также рассмотрите наш
asr-noises
набор данных для этого); - Преобразование текста в речь большого размера (новое);
- Дневник докладчика (новый);
- Идентификация докладчика (новый);
Лицензирование
Набор данных в основном публикуется под cc-nc-by
лицензией.
Если вы хотите использовать его в коммерческих целях, отправьте форму и свяжитесь с нами здесь.
Если вам нужна быстрая (т.е. не требующая работы графических процессоров) / надежная / автономная система STT / TTS, пожалуйста, свяжитесь со мной.
Что следующее?
- Улучшить / повторно загрузить некоторые из существующих наборов данных, уточнить метки;
- Попытка аннотировать предыдущие данные с помощью меток докладчиков;
- Публикация предварительно обученных моделей и постобработка;
- Уточняйте и публикуйте лейблы спикеров;
- Возможно добавление новых языков;
- Уточните метки STT;
Первоначально опубликовано на https://spark-in.me 4 ноября 2019 г.