преобразование pdf в изображение, но после увеличения

Эта ссылка показывает, как можно преобразовать pdfs к изображениям. Есть ли способ увеличить мои pdf перед преобразованием в изображения? В моем проекте я конвертирую pdfs в pngs, а затем использую библиотеку Python-tesseract для извлечения текста. Я заметил, что если я масштабирую pdfs, а затем сохраняю части как pngs, то OCR дает гораздо лучшие результаты. Итак, есть ли способ увеличить pdf-файлы перед преобразованием в png?


person user2543622    schedule 22.03.2019    source источник
comment
Вы также можете создать изображение с высоким разрешением из PDF и обрезать часть изображения, которая вам нужна для распознавания текста.   -  person flamelite    schedule 27.03.2019
comment
не могли бы вы показать, как это сделать? Мне нужно сделать OCR на всей странице   -  person user2543622    schedule 27.03.2019
comment
не могли бы вы предоставить несколько примеров PDF?   -  person Liam    schedule 28.03.2019


Ответы (1)


Я думаю, что повышение качества (разрешения) вашего изображения - лучшее решение, чем увеличение pdf.

используя pdf2image, вы можете сделать это довольно легко:

установить pdf2image: pip install pdf2image

затем в python преобразуйте ваш pdf в изображение высокого качества:

from pdf2image import convert_from_path

pages = convert_from_path('sample.pdf', 400) #400 is the Image quality in DPI (default 200)

pages[0].save("sample.png")

играя с параметром качества, вы должны получить желаемый результат

person Liam    schedule 28.03.2019
comment
есть идеи, как высоко мы могли бы подняться на DPI? пожалуйста, дайте ссылку на документацию. Я пробовал помощь по python, но это было так полезно - person user2543622; 29.03.2019
comment
@user2543622 user2543622 это зависит от файла PDF, с которым вы работаете, и памяти вашего компьютера, вот ссылка на википедию для dpi: en.wikipedia.org/wiki/Dots_per_inch - person Liam; 29.03.2019