Наконец-то мы сделали это!

TL; DR

Это очень краткое сопроводительное сообщение к выпуску Open STT / TTS v1.0.

В двух словах:

  • Open STT публикуется здесь, Open TTS публикуется здесь, набор данных по шуму публикуется здесь;
  • Мы добавили 2 новых набора данных в 2 новых больших и разнообразных домена с примерно 15 000 часов аннотации;
  • В новых наборах данных есть настоящие метки динамиков (которые скоро будут выпущены);
  • Улучшено общее качество аннотаций, исправлено большинство краевых случаев аннотаций;
  • Значительно улучшена нормализация набора данных;

Открытое резюме STT

Некоторое время назад мы были разочарованы состоянием (скоро выйдет более доработанная статья) STT в целом (по сравнению, например, с Computer Vision), особенно на русском языке.

В целом он страдает от многих проблем: (i) небольшие / не очень полезные / не всегда общедоступные академические наборы данных (ii) огромные непрактичные решения (iii) громоздкие / устаревшие / непрактичные наборы инструментов (iv) отрасль с большой историей и уже пережитая из-за ошибки SOTA (v) отсутствие рабочих решений без слишком большого количества условий.

Поэтому мы решили создать с нуля набор данных для русского языка, а затем построить набор предварительно обученных развертываемых моделей на основе набора данных. А потом, возможно, охватите еще пару языков.

Open STT, возможно, является самым большим / лучшим открытым набором данных STT / TTS, который существует сейчас. Пожалуйста, перейдите по ссылкам выше, чтобы узнать больше.

Основные функции в последних выпусках

Основные моменты последнего выпуска:

  • См. Вышеупомянутые маркеры TLDR;
  • Метки спикеров для новых наборов данных;
  • Набор данных теперь доступен как .wav файлы через торрент (я использую канал 1 Гбит / с) и как .mp3 файлы через прямую ссылку для загрузки (также высокая скорость загрузки);
  • Небольшой набор проверочных данных с ручными аннотациями (18 часов), охватывающий 3 основных домена;
  • Общее улучшение качества модели разведки и добычи;
  • Больше никаких «болтающихся» букв;
  • Улучшено обнаружение голосовой активности;
  • Значительно улучшенная нормализация набора данных;
  • Очевидно, что аннотация не идеальна, но время от времени мы добавляем исключаемые списки, когда добавляем новые данные, чтобы отфильтровать наиболее неприятные случаи;

Возможное использование:

  • Речь в текст (очевидно);
  • Снижение шума (также рассмотрите наш asr-noises набор данных для этого);
  • Преобразование текста в речь большого размера (новое);
  • Дневник докладчика (новый);
  • Идентификация докладчика (новый);

Лицензирование

Набор данных в основном публикуется под cc-nc-by лицензией.

Если вы хотите использовать его в коммерческих целях, отправьте форму и свяжитесь с нами здесь.

Если вам нужна быстрая (т.е. не требующая работы графических процессоров) / надежная / автономная система STT / TTS, пожалуйста, свяжитесь со мной.

Что следующее?

  • Улучшить / повторно загрузить некоторые из существующих наборов данных, уточнить метки;
  • Попытка аннотировать предыдущие данные с помощью меток докладчиков;
  • Публикация предварительно обученных моделей и постобработка;
  • Уточняйте и публикуйте лейблы спикеров;
  • Возможно добавление новых языков;
  • Уточните метки STT;

Первоначально опубликовано на https://spark-in.me 4 ноября 2019 г.