Недавно я наткнулся на эту потрясающую библиотеку Python, известную как gTTS (преобразование текста в речь Google). Цель этой библиотеки - преобразовать письменный текст в аудио в формате mp3. Использование также очень простое, просто установите библиотеку с https://pypi.org/project/gTTS/. Затем импортируйте класс из пакета, создайте объект с помощью конструктора и сохраните его как файл mp3.

Теперь я создаю функцию, чтобы я мог передавать любой текст и сохранять в любое имя файла. Это пригодится, когда мы попытаемся создать нашу собственную аудиокнигу.

Теперь только gTTS недостаточно, нам нужен общий источник данных, из которого мы можем получить какой-нибудь абзац текста, который будет интереснее услышать. Чтобы воспользоваться этим, чтобы услышать некоторые общие данные, нам нужно вызвать api. Для этого у нас есть еще одна отличная библиотека под названием requests. Использование также довольно простое, в зависимости от типа сообщения вызова или получения, мы можем использовать конкретный метод.

Сейчас есть очень ограниченные библиотеки, потому что мы можем услышать абзацы текста. Но есть определенные обходные пути для получения абзацев текста из Интернета через python, но это очень сильно зависит от того, что мы хотим услышать. Если мы хотим слышать твиты, вы можете использовать T weepy, чтобы получать твиты вашей любимой учетной записи.

Здесь я хочу послушать блоги или стихи. Итак, что я хочу здесь сделать, так это у меня будет простое консольное приложение, в котором вы просто введете ссылку на свой любимый блог и имя файла в командной строке, приложение извлечет ваш текст из блога, проанализирует его и сохранит в файл, который вы упомянули.

Для выполнения вышеуказанного требования мы будем использовать популярную технику под названием Удаление веб-страниц. У нас есть популярная библиотека для удаления веб-страниц, также называемая beatuifulsoup. Теперь Beautiful soup предлагает множество методов для работы с разными типами html-элементов. Но пока мы просто извлечем текст.

Теперь, когда у нас есть все инструменты, мы можем пройти весь процесс, но перед этим мы можем перечислить все наши зависимости в файле requirements.txt.

Итак, теперь у нас есть все зависимости, и общий процесс будет заключаться в загрузке необработанных данных HTML с использованием библиотеки запросов, анализирующей данные для получения текста из данных HTML с помощью beautifulsoup и передача текста в gTTS, чтобы мы могли сохранить его в аудиофайл. Теперь собираем все это в один файл в виде приложения, известного как app.py.

Теперь приведенный выше сценарий ожидает, что вы передадите два аргумента: первый - имя файла, а второй - URL-адрес блога, который вы хотите прочитать. К сожалению, вы хотите услышать. Мы можем перехватить аргументы, переданные из командной строки, с помощью пакета sys. Таким образом, обычно аргументы будут представлены в массиве sys.args. Первым аргументом будет имя файла скрипта, который мы выполняем в этом случае app.py

После выполнения этой команды вы можете ожидать некоторой задержки, которая будет зависеть от размера блога, который вы пытаетесь получить.

Но у этого кода есть несколько ограничений. Я хотел создать универсального создателя аудиокниг, который мог бы взять URL-адрес любого блога, такого как medium, wordpress или любой другой сайт, и создать ваш блог. Это будет невозможно, ну, вы получите контент, но вместе с тем получите и некоторые бесполезные данные. Чтобы избежать этого, вам нужно использовать больше красивого супа для извлечения фактических данных с определенного сайта. Как и в некоторых блогах, фактическое содержимое может присутствовать в определенном теге p или теге div. Что будет очень сложно предсказать. Мы также можем увидеть, используется ли nltk для резюмирования определенных абзацев. Но об этом я расскажу в какой-нибудь теме в будущем.

Вот репо на гитхабе.



Если вы, читатель, хотите углубиться в библиотеки, упомянутые выше, вам следует перейти по ссылкам ниже.

Https://www.crummy.com/software/BeautifulSoup/bs4/doc/





Так что это пока что. Надеюсь, вы кое-что узнали из этого поста. До скорого.