Единая модель преобразования текста в аудио для звуковых эффектов, человеческой речи и музыки.
Прочитав эту статью, вы научитесь использовать AudioLDM2 для преобразования текста в аудио. К вашему сведению, AudioLDM2 — это модель скрытой диффузии (LDM) преобразования текста в аудио, которая принимает входной текст и генерирует соответствующие звуковые эффекты, человеческую речь и музыку.
AudioLDM2 использует два текстовых кодировщика для вычисления встраивания текста:
Затем выходные встраивания текста проецируются в общее пространство встраивания. Впоследствии он использует языковую модель (GPT2) для авторегрессионного прогнозирования восьми новых векторов внедрения на основе прогнозируемых вложений текста CLAP и Flan-T5. В отличие от других моделей скрытой диффузии, которые используют только одно условие перекрестного внимания, AudioLDM2 использует сгенерированные векторы внедрения и встраивания текста Flan-T5.
Одним из основных преимуществ AudioLDM2 является то, что он служит унифицированной платформой для задач преобразования текста в аудио, текста в музыку и преобразования текста в речь. На момент написания этой статьи официальный репозиторий имел следующие контрольные точки:
audioldm2-full
(по умолчанию): создание звуковых эффектов и музыки.audioldm2-full-large-1150k
: Увеличенная версия audioldm2-full.audioldm2-music-665k
: Генерация музыки.audioldm2-speech-gigaspeech
(по умолчанию для TTS): преобразование текста в речь, обученное на наборе данных GigaSpeech.audioldm2-speech-ljspeech
: Преобразование текста в речь, обученное на наборе данных LJSpeech.
Это руководство основано на последней разрабатываемой версии пакета diffusers
, которая поддерживает следующие модели:
Модели преобразования текста в речь будут поддерживаться в будущем выпуске.
Пожалуйста, перейдите к следующему разделу процесса установки.
Настраивать
Прежде чем продолжить установку, настоятельно рекомендуется создать новую виртуальную среду.