Может ли кто-нибудь порекомендовать библиотеку/API для извлечения текста и изображений из PDF? Нам нужно иметь возможность получить текст, который содержится в заранее известных областях документа, поэтому API должен будет предоставить нам информацию о положении каждого элемента на странице.
Мы хотели бы, чтобы эти данные выводились в формате xml
или json
. В настоящее время мы смотрим на PdfTextStream, который кажется довольно хорошим, но мы хотели бы узнать об опыте и предложениях других людей.
Есть ли альтернативы (коммерческие или бесплатные) для извлечения текста из pdf программными средствами?
/^\s*\[?\((.*?)\)\]?\s*T[Jj]/mg
. Он просто ищет оператор Tj/TJ, который обозначает весь обычный текст в PDF. - person Alex R   schedule 25.10.2015