Расшифровка с помощью высококачественного бесплатного инструмента с использованием python

Аудиоданные, даже если на них не особо обращают внимание, так же важны, как и любые другие данные. Эти неструктурированные данные имеют большую ценность, но на них почти не обращают внимания из-за сложной обработки. В этой статье я стремлюсь дать техническое представление об одном бесплатном (даже для бизнеса) инструменте с открытым исходным кодом, который расшифровывает аудиоданные и поддерживает 131 (на данный момент) язык.

Вит.ай

Wit.ai — это инструмент, целью которого является Позволить людям взаимодействовать с вашими продуктами с помощью голоса и текста. Этот инструмент разработан компанией Meta, код можно посмотреть здесь. Чтобы использовать этот инструмент, у вас должна быть учетная запись Facebook, а затем синхронизация с инструментом. После этого вы можете создать свой токен доступа — что касается цели, поскольку инструмент имеет множество функций, помимо расшифровки аудио, — которые будут необходимы для доступа к ресурсу через код. На изображениях ниже показана платформа и местонахождение токена доступа.

В моем случае я использовал python для разработки.

pip установить pywit

Тогда самый простой способ расшифровки аудио:

from wit import Wit
access_token = 'INSERT HERE YOUR CLIENT ACCESS TOKEN'
client = Wit(access_token)
transcription = None
with open('your_file.wav', 'rb') as f:
  resp = client.speech(f, {'Content-Type': 'audio/wav'})
print('Transcription by Wit.ai: ' + str(transcription))

Кроме того, существует библиотека, которая объединяет несколько инструментов распознавания речи, доступных для Python, и включает Wit.ai. Код библиотеки можно увидеть по этой ссылке. Вы можете установить его, используя:

pip установить SpeechRecognition

Используя этот ресурс, самый простой способ транскрибировать аудио с помощью Wit.ai в качестве движка выглядит следующим образом:

import speech_recognition as sr
access_token = 'INSERT HERE YOUR CLIENT ACCESS TOKEN'
r = sr.Recognizer()
with sr.AudioFile('your_file.wav') as source:        
    audio = r.record(source)  # read the entire audio file
transcription = r.recognize_wit(audio, key=access_token)
print('Transcription by Wit.ai: ' + transcription)

Рекомендую при расшифровке более чем одного аудиофайла постоянно сохранять результат — ведь при сбое сети или недоступности инструмента транскрипции теряются. Моя монография бакалавра информатики была основана на многих подобных инструментах, и репозиторий этого инструмента можно найти здесь для библиотеки Wit.ai и здесь для библиотеки SpeechRecognition.

Основные замечания к моей оценке этого конкретного инструмента:

  • Большое время отклика, но важно обрабатывать такие исключения, как UnknownValueError (при использовании библиотеки SpeechRecognition) или WitError (при использовании библиотеки Wit.ai);
  • Инструмент, в целом, имеет хорошее качество для расшифровки аудио, но может иметь некоторые трудности при обработке зашумленных данных. В этих случаях я настоятельно рекомендую подходы к предварительной обработке данных;
  • Это бесплатно даже для бизнеса, и в нем есть другие простые ресурсы НЛП для применения к тексту — например, транскрипции.

После транскрипции содержимого аудиофайла к нему могут быть применены многочисленные методы НЛП, чтобы данные лучше анализировались и использовались — анализ настроений, языковой анализ и т. д.

В этой статье я представил качественный бесплатный инструмент для распознавания речи. Кроме того, я представил несколько прикладных примеров. В следующей статье я опишу некоторые полезные методы НЛП и проиллюстрирую их примерами кода.

Я Алин, автор этой статьи. Найди меня здесь и здесь!

Дополнительные материалы на PlainEnglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter, LinkedIn, YouTube и Discord . Заинтересованы в хакинге роста? Ознакомьтесь с разделом Схема.