OCR, вероятно, единственный способ. С точки зрения PDF есть прямоугольник, и через некоторые из этих прямоугольников проведены две линии. Это даже не изображения, а настоящие команды векторного рисования. Возможно, вы могли бы найти этот дополнительный рисунок «x», но он не связан с текстом, который появляется рядом с ним, поэтому вам придется написать некоторую нечеткую логику, чтобы оценить, какой «x» соответствует какому «тексту», и я думаю, что вы d в конечном итоге с кучей ложных срабатываний. Если у вас есть куча этих PDF-файлов, возможно, стоит что-то написать, в противном случае OCR или ввод вручную.
Если вы хотите проанализировать PDF, вы можете попробовать что-то вроде этого, что немного уродливо, но если вы анализируете то же самое PDF снова и снова может работать нормально. Если вам нужно что-то более общее и повторно используемое, я бы проверил сообщение создателя iText здесь. Его пост предназначен для групп с необязательным контентом, но он должен дать вам некоторые идеи для начала.
person
Chris Haas
schedule
11.08.2014