Эта ссылка показывает, как можно преобразовать pdf
s к изображениям. Есть ли способ увеличить мои pdf
перед преобразованием в изображения? В моем проекте я конвертирую pdf
s в png
s, а затем использую библиотеку Python-tesseract
для извлечения текста. Я заметил, что если я масштабирую pdf
s, а затем сохраняю части как png
s, то OCR дает гораздо лучшие результаты. Итак, есть ли способ увеличить pdf-файлы перед преобразованием в png?
преобразование pdf в изображение, но после увеличения
comment
Вы также можете создать изображение с высоким разрешением из PDF и обрезать часть изображения, которая вам нужна для распознавания текста.
- person flamelite   schedule 27.03.2019
comment
не могли бы вы показать, как это сделать? Мне нужно сделать OCR на всей странице
- person user2543622   schedule 27.03.2019
comment
не могли бы вы предоставить несколько примеров PDF?
- person Liam   schedule 28.03.2019
Ответы (1)
Я думаю, что повышение качества (разрешения) вашего изображения - лучшее решение, чем увеличение pdf.
используя pdf2image
, вы можете сделать это довольно легко:
установить pdf2image: pip install pdf2image
затем в python преобразуйте ваш pdf в изображение высокого качества:
from pdf2image import convert_from_path
pages = convert_from_path('sample.pdf', 400) #400 is the Image quality in DPI (default 200)
pages[0].save("sample.png")
играя с параметром качества, вы должны получить желаемый результат
person
Liam
schedule
28.03.2019
есть идеи, как высоко мы могли бы подняться на DPI? пожалуйста, дайте ссылку на документацию. Я пробовал помощь по python, но это было так полезно
- person user2543622; 29.03.2019
@user2543622 user2543622 это зависит от файла PDF, с которым вы работаете, и памяти вашего компьютера, вот ссылка на википедию для dpi: en.wikipedia.org/wiki/Dots_per_inch
- person Liam; 29.03.2019