Релиз Open STT 1.0

Наконец-то мы сделали это!

TL; DR

Это очень краткое сопроводительное сообщение к выпуску Open STT / TTS v1.0.

В двух словах:

Open STT публикуется здесь, Open TTS публикуется здесь, набор данных по шуму публикуется здесь;
Мы добавили 2 новых набора данных в 2 новых больших и разнообразных домена с примерно 15 000 часов аннотации;
В новых наборах данных есть настоящие метки динамиков (которые скоро будут выпущены);
Улучшено общее качество аннотаций, исправлено большинство краевых случаев аннотаций;
Значительно улучшена нормализация набора данных;

Открытое резюме STT

Некоторое время назад мы были разочарованы состоянием (скоро выйдет более доработанная статья) STT в целом (по сравнению, например, с Computer Vision), особенно на русском языке.

В целом он страдает от многих проблем: (i) небольшие / не очень полезные / не всегда общедоступные академические наборы данных (ii) огромные непрактичные решения (iii) громоздкие / устаревшие / непрактичные наборы инструментов (iv) отрасль с большой историей и уже пережитая из-за ошибки SOTA (v) отсутствие рабочих решений без слишком большого количества условий.

Поэтому мы решили создать с нуля набор данных для русского языка, а затем построить набор предварительно обученных развертываемых моделей на основе набора данных. А потом, возможно, охватите еще пару языков.

Open STT, возможно, является самым большим / лучшим открытым набором данных STT / TTS, который существует сейчас. Пожалуйста, перейдите по ссылкам выше, чтобы узнать больше.

Основные функции в последних выпусках

Основные моменты последнего выпуска:

См. Вышеупомянутые маркеры TLDR;
Метки спикеров для новых наборов данных;
Набор данных теперь доступен как .wav файлы через торрент (я использую канал 1 Гбит / с) и как .mp3 файлы через прямую ссылку для загрузки (также высокая скорость загрузки);
Небольшой набор проверочных данных с ручными аннотациями (18 часов), охватывающий 3 основных домена;
Общее улучшение качества модели разведки и добычи;
Больше никаких «болтающихся» букв;
Улучшено обнаружение голосовой активности;
Значительно улучшенная нормализация набора данных;
Очевидно, что аннотация не идеальна, но время от времени мы добавляем исключаемые списки, когда добавляем новые данные, чтобы отфильтровать наиболее неприятные случаи;

Возможное использование:

Речь в текст (очевидно);
Снижение шума (также рассмотрите наш asr-noises набор данных для этого);
Преобразование текста в речь большого размера (новое);
Дневник докладчика (новый);
Идентификация докладчика (новый);

Лицензирование

Набор данных в основном публикуется под cc-nc-by лицензией.

Если вы хотите использовать его в коммерческих целях, отправьте форму и свяжитесь с нами здесь.

Если вам нужна быстрая (т.е. не требующая работы графических процессоров) / надежная / автономная система STT / TTS, пожалуйста, свяжитесь со мной.

Что следующее?

Улучшить / повторно загрузить некоторые из существующих наборов данных, уточнить метки;
Попытка аннотировать предыдущие данные с помощью меток докладчиков;
Публикация предварительно обученных моделей и постобработка;
Уточняйте и публикуйте лейблы спикеров;
Возможно добавление новых языков;
Уточните метки STT;

Первоначально опубликовано на https://spark-in.me 4 ноября 2019 г.