Недавно у меня была возможность изучить один из лучших алгоритмов глубокого обучения, преобразование речи в текст, для проекта моей компании по расшифровке звукового сигнала и удалению конфиденциальных и личных данных.

Если вы, как и я, впервые пользуетесь Google API, я расскажу вам, и гарантирую, что из этой статьи вы сможете использовать Google API.

Что такое API? Согласно Википедии API

Интерфейс прикладного программирования (API) - это связь между« компьютерами или между компьютерными программами . Это тип программного интерфейса, предлагающий услуги другим частям программного обеспечения. [1] Документ или стандарт, описывающий, как построить такое соединение или интерфейс, называется спецификацией API . Считается, что компьютерная система, отвечающая этому стандарту, реализует или предоставляет API. Термин API может относиться либо к спецификации, либо к реализации ».

Проще говоря, это использование другого программного обеспечения (API) путем подключения вашего компьютера к их компьютеру для запроса использования этого конкретного программного обеспечения (API). Да, Google позволяет всем брать или арендовать свои API в обмен на плату, а иногда и бесплатно. Если мы хотим использовать сервис, мы можем просто посетить их сайт и бесплатно протестировать его, но если вы хотите использовать его для интеграции с вашей программой или кодом, вам необходимо зарегистрироваться на платформе Google Cloud.

Первым делом вам нужно зайти на этот сайт: cloud.google.com.

Для первого таймера облачной платформы. Облачная платформа относится к операционной системе и оборудованию сервера в интернет-центре обработки данных. Это позволяет программным и аппаратным продуктам сосуществовать удаленно и в большом масштабе. Думайте об облачной платформе как о месте, где вы можете заставить свой код работать, не беспокоясь о сервере, обслуживании и т. Д., Но в этой статье мы используем облако, чтобы заимствовать их программное обеспечение для преобразования речи в текст и их вычислительные мощности для работы с API преобразования речи в текст на нашем компьютере.

Выход на облачную платформу Google

Чтобы войти в их облачную платформу Google, нажмите кнопку «Перейти в консоль». И вы войдете на эту целевую страницу GCP.

Эта страница представляет собой сводную страницу по использованию GCP, включая API, биллинг и проект. Прежде чем использовать любую из их услуг, вы должны настроить свою кредитную карту в своей учетной записи Gmail для службы Google. Но здесь вам не нужно беспокоиться о цене, потому что GCP предоставит вам кредит в размере 300 долларов за использование и не будет автоматически использовать вашу кредитную карту, если бесплатный кредит будет превышен.

Чтобы использовать API в GCP, сначала нажмите API и службы справа. Вы найдете эту страницу и нажмите Библиотека, чтобы найти API, который вы ищете.

Поиск в Cloud API преобразования речи в текст

Сначала будет отображаться синяя кнопка Включить, после того как вы ее нажмете, это позволит вашей учетной записи подключиться к API. Затем он изменится на Управление, теперь у вас уже есть доступ к одному этапу API Google.

Последнее, что вам нужно сделать, чтобы использовать GCP с API, - это получить ключи учетных данных. Вернитесь на страницу API и службы и нажмите Учетные данные
, а затем нажмите на свои Учетные записи служб.

# Сейчас для меня довольно деликатно поделиться картинкой для следующей детали.
Я не буду показывать изображение для доступа и создания учетных данных.

Как получить учетные данные учетной записи службы Google

После перехода на страницу Учетные записи служб,

  1. вы переходите на вкладку Ключ
  2. Нажмите Добавить ключ и выберите Создать новый ключ.
  3. Выберите JSON, чтобы загрузить ключ как файл json и использовать его для доступа к API GCP.
  4. сохраните файл JSON в google_secret_key.json или под другим именем, если хотите

Теперь у вас все готово и вы готовы использовать API в своем коде.

Cloud Speech-to-Text API на Python

Чтобы сначала использовать API в Python, вам необходимо установить облачную библиотеку Google для речи. Используя pip install в командной строке.

pip install google-cloud-speech

Теперь вы получаете доступ к API GCP, давайте напишем код. Сначала мы импортируем минимально необходимый код для использования API.

from google.cloud import speech
import os
import io

Создайте экземпляр клиента для отправки запроса API и установки учетных данных Google для запроса API. Вот код, чтобы ваша операционная система узнала, какой файл содержит учетные данные Google. вы должны поместить файл учетных данных в ту же папку, что и ваш код, или указать путь к этому файлу json.

#setting Google credential
os.environ['GOOGLE_APPLICATION_CREDENTIALS']= 'google_secret_key.json'
# create client instance 
client = speech.SpeechClient()

Прочтите аудиофайл, вы можете попробовать другой аудиоформат, кроме файла WAV, но, чтобы убедиться, что он работает, я рекомендовал использовать формат WAV или MP3. Если вы хотите протестировать то же аудио, что и я, вы можете перейти к этому аудиофайлу с открытым исходным кодом.

#the path of your audio file
file_name = "OSR_us_000_0010_8k.wav"
with io.open(file_name, "rb") as audio_file:
    content = audio_file.read()
    audio = speech.RecognitionAudio(content=content)

Теперь, чтобы использовать речь в первую очередь, нам нужно установить конфигурацию для механизма преобразования речи в текст, который вы можете посмотреть в параметре здесь.

config = speech.RecognitionConfig(
    encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
    enable_automatic_punctuation=True,
    audio_channel_count=2,
    language_code="en-US",
)

Теперь это та часть, которую мы отправляем в Google, чтобы расшифровать аудио для нас.

# Sends the request to google to transcribe the audio
response = client.recognize(request={"config": config, "audio": audio})
# Reads the response
for result in response.results:
    print("Transcript: {}".format(result.alternatives[0].transcript))

Результат будет выглядеть так

Transcript: The Birch canoes slid on the smooth planks.
Transcript:  Glue the sheet to the dark blue background.
Transcript:  It is easy to tell the death of a well.
Transcript:  These days, a chicken leg is a verb dish.
Transcript:  Rice is often served in round bowls.
Transcript:  The juice of lemons makes find punch.
Transcript:  The box was down beside the park truck.
Transcript:  The Hogs of food shop, corn and garbage.
Transcript:  4 hours of study work Facebook.
Transcript:  A large size in stockings is hard to sell.

Этот метод, который я вам только что показываю, охватывает только метод для мелкомасштабного звука (звук менее 1 минуты или 10 МБ), так что вы можете запускать его на локальном компьютере. Если вы хотите запустить более длинный аудиофайл, вам необходимо поместить аудиофайл в Google Cloud Storage, который представляет собой еще один API для хранения данных в облаке, чтобы он мог использовать больше ресурсов для вычислений.

Теперь у вас все готово для применения преобразования речи в текст к вашему приложению и вашему коду. Наслаждайтесь!