Расшифровка с помощью высококачественного бесплатного инструмента с использованием python
Аудиоданные, даже если на них не особо обращают внимание, так же важны, как и любые другие данные. Эти неструктурированные данные имеют большую ценность, но на них почти не обращают внимания из-за сложной обработки. В этой статье я стремлюсь дать техническое представление об одном бесплатном (даже для бизнеса) инструменте с открытым исходным кодом, который расшифровывает аудиоданные и поддерживает 131 (на данный момент) язык.
Вит.ай
Wit.ai — это инструмент, целью которого является Позволить людям взаимодействовать с вашими продуктами с помощью голоса и текста. Этот инструмент разработан компанией Meta, код можно посмотреть здесь. Чтобы использовать этот инструмент, у вас должна быть учетная запись Facebook, а затем синхронизация с инструментом. После этого вы можете создать свой токен доступа — что касается цели, поскольку инструмент имеет множество функций, помимо расшифровки аудио, — которые будут необходимы для доступа к ресурсу через код. На изображениях ниже показана платформа и местонахождение токена доступа.
В моем случае я использовал python для разработки.
pip установить pywit
Тогда самый простой способ расшифровки аудио:
from wit import Wit access_token = 'INSERT HERE YOUR CLIENT ACCESS TOKEN' client = Wit(access_token) transcription = None with open('your_file.wav', 'rb') as f: resp = client.speech(f, {'Content-Type': 'audio/wav'}) print('Transcription by Wit.ai: ' + str(transcription))
Кроме того, существует библиотека, которая объединяет несколько инструментов распознавания речи, доступных для Python, и включает Wit.ai. Код библиотеки можно увидеть по этой ссылке. Вы можете установить его, используя:
pip установить SpeechRecognition
Используя этот ресурс, самый простой способ транскрибировать аудио с помощью Wit.ai в качестве движка выглядит следующим образом:
import speech_recognition as sr access_token = 'INSERT HERE YOUR CLIENT ACCESS TOKEN' r = sr.Recognizer() with sr.AudioFile('your_file.wav') as source: audio = r.record(source) # read the entire audio file transcription = r.recognize_wit(audio, key=access_token) print('Transcription by Wit.ai: ' + transcription)
Рекомендую при расшифровке более чем одного аудиофайла постоянно сохранять результат — ведь при сбое сети или недоступности инструмента транскрипции теряются. Моя монография бакалавра информатики была основана на многих подобных инструментах, и репозиторий этого инструмента можно найти здесь для библиотеки Wit.ai и здесь для библиотеки SpeechRecognition.
Основные замечания к моей оценке этого конкретного инструмента:
- Большое время отклика, но важно обрабатывать такие исключения, как UnknownValueError (при использовании библиотеки SpeechRecognition) или WitError (при использовании библиотеки Wit.ai);
- Инструмент, в целом, имеет хорошее качество для расшифровки аудио, но может иметь некоторые трудности при обработке зашумленных данных. В этих случаях я настоятельно рекомендую подходы к предварительной обработке данных;
- Это бесплатно даже для бизнеса, и в нем есть другие простые ресурсы НЛП для применения к тексту — например, транскрипции.
После транскрипции содержимого аудиофайла к нему могут быть применены многочисленные методы НЛП, чтобы данные лучше анализировались и использовались — анализ настроений, языковой анализ и т. д.
В этой статье я представил качественный бесплатный инструмент для распознавания речи. Кроме того, я представил несколько прикладных примеров. В следующей статье я опишу некоторые полезные методы НЛП и проиллюстрирую их примерами кода.
Я Алин, автор этой статьи. Найди меня здесь и здесь!
Дополнительные материалы на PlainEnglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter, LinkedIn, YouTube и Discord . Заинтересованы в хакинге роста? Ознакомьтесь с разделом Схема.