Экспериментальный хак, который работает «из коробки»

Whisper — это универсальная модель распознавания речи, созданная OpenAI. Он был официально выпущен для публики в конце 2022 года и в настоящее время является одной из самых современных моделей распознавания речи.

Модель обучается на большом наборе данных с разнообразным звуком и способна выполнять следующие задачи:

  • многоязычное распознавание речи
  • перевод речи
  • идентификация языка

Официальный репозиторий в первую очередь сосредоточен на возможностях распознавания речи. Тем не менее, Whisper может довольно хорошо переводить речь для языков, которые имеют схожие черты. Например, перевод с английского на испанский.

Недавно я наткнулся на эксперимент, проведенный сообществом, в котором использовалась модель Whisper на основе трансформеров для транскрипции речи на любой язык. Вдохновленный экспериментом, этот учебник охватывает ту же технику, которая используется для перевода речи, используя оригинальную реализацию Whisper вместо Whisper на основе преобразования.

На момент написания этой статьи Whisper поставляется с пятью различными многоязычными моделями.

Это руководство основано на большой модели, для которой требуется около 10 ГБ видеопамяти.

Перейдем к следующему разделу процесса настройки и установки.

Настраивать

Перед установкой настоятельно рекомендуется создать новую виртуальную среду.

Активируйте его и выполните следующую команду для установки torch:

pip install torch --index-url https://download.pytorch.org/whl/cu118

Затем установите модуль openai-whisper следующим образом:

pip install -U openai-whisper

Применение

Распознавание речи

Начнем с простого фрагмента кода для перевода речи.

Создайте новый скрипт Python с именем transcribe.py и добавьте следующий оператор импорта вверху файла:

import whisper

Затем инициализируйте модель Whisper:

model = whisper.load_model("large")