Экспериментальный хак, который работает «из коробки»
Whisper — это универсальная модель распознавания речи, созданная OpenAI. Он был официально выпущен для публики в конце 2022 года и в настоящее время является одной из самых современных моделей распознавания речи.
Модель обучается на большом наборе данных с разнообразным звуком и способна выполнять следующие задачи:
- многоязычное распознавание речи
- перевод речи
- идентификация языка
Официальный репозиторий в первую очередь сосредоточен на возможностях распознавания речи. Тем не менее, Whisper может довольно хорошо переводить речь для языков, которые имеют схожие черты. Например, перевод с английского на испанский.
Недавно я наткнулся на эксперимент, проведенный сообществом, в котором использовалась модель Whisper на основе трансформеров для транскрипции речи на любой язык. Вдохновленный экспериментом, этот учебник охватывает ту же технику, которая используется для перевода речи, используя оригинальную реализацию Whisper вместо Whisper на основе преобразования.
На момент написания этой статьи Whisper поставляется с пятью различными многоязычными моделями.
Это руководство основано на большой модели, для которой требуется около 10 ГБ видеопамяти.
Перейдем к следующему разделу процесса настройки и установки.
Настраивать
Перед установкой настоятельно рекомендуется создать новую виртуальную среду.
Активируйте его и выполните следующую команду для установки torch
:
pip install torch --index-url https://download.pytorch.org/whl/cu118
Затем установите модуль openai-whisper
следующим образом:
pip install -U openai-whisper
Применение
Распознавание речи
Начнем с простого фрагмента кода для перевода речи.
Создайте новый скрипт Python с именем transcribe.py
и добавьте следующий оператор импорта вверху файла:
import whisper
Затем инициализируйте модель Whisper:
model = whisper.load_model("large")