Единая модель преобразования текста в аудио для звуковых эффектов, человеческой речи и музыки.

Прочитав эту статью, вы научитесь использовать AudioLDM2 для преобразования текста в аудио. К вашему сведению, AudioLDM2 — это модель скрытой диффузии (LDM) преобразования текста в аудио, которая принимает входной текст и генерирует соответствующие звуковые эффекты, человеческую речь и музыку.

AudioLDM2 использует два текстовых кодировщика для вычисления встраивания текста:

Затем выходные встраивания текста проецируются в общее пространство встраивания. Впоследствии он использует языковую модель (GPT2) для авторегрессионного прогнозирования восьми новых векторов внедрения на основе прогнозируемых вложений текста CLAP и Flan-T5. В отличие от других моделей скрытой диффузии, которые используют только одно условие перекрестного внимания, AudioLDM2 использует сгенерированные векторы внедрения и встраивания текста Flan-T5.

Одним из основных преимуществ AudioLDM2 является то, что он служит унифицированной платформой для задач преобразования текста в аудио, текста в музыку и преобразования текста в речь. На момент написания этой статьи официальный репозиторий имел следующие контрольные точки:

  • audioldm2-full (по умолчанию): создание звуковых эффектов и музыки.
  • audioldm2-full-large-1150k: Увеличенная версия audioldm2-full.
  • audioldm2-music-665k: Генерация музыки.
  • audioldm2-speech-gigaspeech (по умолчанию для TTS): преобразование текста в речь, обученное на наборе данных GigaSpeech.
  • audioldm2-speech-ljspeech: Преобразование текста в речь, обученное на наборе данных LJSpeech.

Это руководство основано на последней разрабатываемой версии пакета diffusers, которая поддерживает следующие модели:

Модели преобразования текста в речь будут поддерживаться в будущем выпуске.

Пожалуйста, перейдите к следующему разделу процесса установки.

Настраивать

Прежде чем продолжить установку, настоятельно рекомендуется создать новую виртуальную среду.

Пайторч