Недавно у меня была возможность изучить один из лучших алгоритмов глубокого обучения, преобразование речи в текст, для проекта моей компании по расшифровке звукового сигнала и удалению конфиденциальных и личных данных.
Если вы, как и я, впервые пользуетесь Google API, я расскажу вам, и гарантирую, что из этой статьи вы сможете использовать Google API.
Что такое API? Согласно Википедии API
Интерфейс прикладного программирования (API) - это связь между« компьютерами или между компьютерными программами . Это тип программного интерфейса, предлагающий услуги другим частям программного обеспечения. [1] Документ или стандарт, описывающий, как построить такое соединение или интерфейс, называется спецификацией API . Считается, что компьютерная система, отвечающая этому стандарту, реализует или предоставляет API. Термин API может относиться либо к спецификации, либо к реализации ».
Проще говоря, это использование другого программного обеспечения (API) путем подключения вашего компьютера к их компьютеру для запроса использования этого конкретного программного обеспечения (API). Да, Google позволяет всем брать или арендовать свои API в обмен на плату, а иногда и бесплатно. Если мы хотим использовать сервис, мы можем просто посетить их сайт и бесплатно протестировать его, но если вы хотите использовать его для интеграции с вашей программой или кодом, вам необходимо зарегистрироваться на платформе Google Cloud.
Первым делом вам нужно зайти на этот сайт: cloud.google.com.
Для первого таймера облачной платформы. Облачная платформа относится к операционной системе и оборудованию сервера в интернет-центре обработки данных. Это позволяет программным и аппаратным продуктам сосуществовать удаленно и в большом масштабе. Думайте об облачной платформе как о месте, где вы можете заставить свой код работать, не беспокоясь о сервере, обслуживании и т. Д., Но в этой статье мы используем облако, чтобы заимствовать их программное обеспечение для преобразования речи в текст и их вычислительные мощности для работы с API преобразования речи в текст на нашем компьютере.
Выход на облачную платформу Google
Чтобы войти в их облачную платформу Google, нажмите кнопку «Перейти в консоль». И вы войдете на эту целевую страницу GCP.
Эта страница представляет собой сводную страницу по использованию GCP, включая API, биллинг и проект. Прежде чем использовать любую из их услуг, вы должны настроить свою кредитную карту в своей учетной записи Gmail для службы Google. Но здесь вам не нужно беспокоиться о цене, потому что GCP предоставит вам кредит в размере 300 долларов за использование и не будет автоматически использовать вашу кредитную карту, если бесплатный кредит будет превышен.
Чтобы использовать API в GCP, сначала нажмите API и службы справа. Вы найдете эту страницу и нажмите Библиотека, чтобы найти API, который вы ищете.
Поиск в Cloud API преобразования речи в текст
Сначала будет отображаться синяя кнопка Включить, после того как вы ее нажмете, это позволит вашей учетной записи подключиться к API. Затем он изменится на Управление, теперь у вас уже есть доступ к одному этапу API Google.
Последнее, что вам нужно сделать, чтобы использовать GCP с API, - это получить ключи учетных данных. Вернитесь на страницу API и службы и нажмите Учетные данные
, а затем нажмите на свои Учетные записи служб.
# Сейчас для меня довольно деликатно поделиться картинкой для следующей детали.
Я не буду показывать изображение для доступа и создания учетных данных.
Как получить учетные данные учетной записи службы Google
После перехода на страницу Учетные записи служб,
- вы переходите на вкладку Ключ
- Нажмите Добавить ключ и выберите Создать новый ключ.
- Выберите JSON, чтобы загрузить ключ как файл json и использовать его для доступа к API GCP.
- сохраните файл JSON в google_secret_key.json или под другим именем, если хотите
Теперь у вас все готово и вы готовы использовать API в своем коде.
Cloud Speech-to-Text API на Python
Чтобы сначала использовать API в Python, вам необходимо установить облачную библиотеку Google для речи. Используя pip install в командной строке.
pip install google-cloud-speech
Теперь вы получаете доступ к API GCP, давайте напишем код. Сначала мы импортируем минимально необходимый код для использования API.
from google.cloud import speech import os import io
Создайте экземпляр клиента для отправки запроса API и установки учетных данных Google для запроса API. Вот код, чтобы ваша операционная система узнала, какой файл содержит учетные данные Google. вы должны поместить файл учетных данных в ту же папку, что и ваш код, или указать путь к этому файлу json.
#setting Google credential os.environ['GOOGLE_APPLICATION_CREDENTIALS']= 'google_secret_key.json' # create client instance client = speech.SpeechClient()
Прочтите аудиофайл, вы можете попробовать другой аудиоформат, кроме файла WAV, но, чтобы убедиться, что он работает, я рекомендовал использовать формат WAV или MP3. Если вы хотите протестировать то же аудио, что и я, вы можете перейти к этому аудиофайлу с открытым исходным кодом.
#the path of your audio file file_name = "OSR_us_000_0010_8k.wav" with io.open(file_name, "rb") as audio_file: content = audio_file.read() audio = speech.RecognitionAudio(content=content)
Теперь, чтобы использовать речь в первую очередь, нам нужно установить конфигурацию для механизма преобразования речи в текст, который вы можете посмотреть в параметре здесь.
config = speech.RecognitionConfig( encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16, enable_automatic_punctuation=True, audio_channel_count=2, language_code="en-US", )
Теперь это та часть, которую мы отправляем в Google, чтобы расшифровать аудио для нас.
# Sends the request to google to transcribe the audio response = client.recognize(request={"config": config, "audio": audio}) # Reads the response for result in response.results: print("Transcript: {}".format(result.alternatives[0].transcript))
Результат будет выглядеть так
Transcript: The Birch canoes slid on the smooth planks. Transcript: Glue the sheet to the dark blue background. Transcript: It is easy to tell the death of a well. Transcript: These days, a chicken leg is a verb dish. Transcript: Rice is often served in round bowls. Transcript: The juice of lemons makes find punch. Transcript: The box was down beside the park truck. Transcript: The Hogs of food shop, corn and garbage. Transcript: 4 hours of study work Facebook. Transcript: A large size in stockings is hard to sell.
Этот метод, который я вам только что показываю, охватывает только метод для мелкомасштабного звука (звук менее 1 минуты или 10 МБ), так что вы можете запускать его на локальном компьютере. Если вы хотите запустить более длинный аудиофайл, вам необходимо поместить аудиофайл в Google Cloud Storage, который представляет собой еще один API для хранения данных в облаке, чтобы он мог использовать больше ресурсов для вычислений.