Я пытаюсь извлечь текст из URL-адреса PDF. Если я скачаю PDF, я могу легко извлечь текст с помощью функции slate
. Однако при попытке импортировать PDF-файл с помощью io
и извлечь текст возвращаемый результат - просто ничего. Код прикреплен ниже.
import requests, PyPDF2, io
from io import BytesIO
url = 'https://www.poderjudicial.es/search/contenidos.action?action=accessToPDF&publicinterface=true&tab=AN&reference=e3ca421447bc6b71&encode=true&optimize=20210216&databasematch=AN'
response = requests.get(url)
f = io.BytesIO(response.content)
with f as data:
read_pdf = PyPDF2.PdfFileReader(data)
page = read_pdf.getPage(1)
print(page.extractText())
Я пробовал кучу других функций, но они не работают. Я делаю что-то неправильно?
response.content
равныb'%PDF-1.4\n%'
, поэтому в программе это кажется допустимым PDF-файлом. Вы пробовали напечатать атрибутread_pdf.numPages
? - person VirtualScooter   schedule 27.02.2021