Как проверить, установлен ли флажок в неформальном PDF-файле с помощью С#?

Используя С#, я хочу увидеть, установлен ли определенный флажок на странице PDF. Файл PDF не является формой.

PDF-файл может выглядеть примерно так: введите здесь описание изображения

Пример файла находится здесь: MDS30ResidentP2.pdf (в этом примере файла я хочу как-то разобраться, что чек- флажок "E" в вопросе A1000 отмечен. Опять же: PDF не в формате "форма"!).

PS: ни один из следующих постов не решил мою проблему:


person Tohid    schedule 08.08.2014    source источник
comment
Что-то вроде OCR?   -  person gunr2171    schedule 08.08.2014
comment
OCR, вероятно, единственный способ. С точки зрения PDF есть прямоугольник, и через некоторые из этих прямоугольников проведены две линии. Это даже не изображения, а настоящие команды векторного рисования. Возможно, вы могли бы поискать этот дополнительный рисунок x, но он не связан с текстом, который появляется рядом с ним, поэтому вам придется написать некоторую нечеткую логику, чтобы оценить, какой x соответствует какому тексту, и я думаю, что вы получите кучу ложных срабатываний. Если у вас их много, возможно, стоит что-то написать, в противном случае OCR или ввод вручную.   -  person Chris Haas    schedule 08.08.2014
comment
@ChrisHaas - Итак, если я могу каким-то образом получить положение этого флажка и X в нем, я могу выяснить остальное. Вы знаете, как я могу это сделать? Любой пример кода?   -  person Tohid    schedule 09.08.2014
comment
Вы можете попробовать что-то вроде этого, что немного некрасиво, но если вы снова и снова анализируете один и тот же PDF-файл, это может работать нормально. Если вам нужно что-то более общее и повторно используемое, я бы проверил сообщение создателя iText здесь. Его пост предназначен для групп с необязательным контентом, но он должен дать вам некоторые идеи для начала.   -  person Chris Haas    schedule 09.08.2014
comment
Спасибо @ChrisHaas. Я работаю над этим сейчас, и я думаю, что я в правильном направлении, благодаря вам. Пожалуйста, объедините два ваших комментария и введите их как ответ, я отмечу их как правильный ответ. Это поможет людям с тем же вопросом.   -  person Tohid    schedule 11.08.2014


Ответы (1)


OCR, вероятно, единственный способ. С точки зрения PDF есть прямоугольник, и через некоторые из этих прямоугольников проведены две линии. Это даже не изображения, а настоящие команды векторного рисования. Возможно, вы могли бы найти этот дополнительный рисунок «x», но он не связан с текстом, который появляется рядом с ним, поэтому вам придется написать некоторую нечеткую логику, чтобы оценить, какой «x» соответствует какому «тексту», и я думаю, что вы d в конечном итоге с кучей ложных срабатываний. Если у вас есть куча этих PDF-файлов, возможно, стоит что-то написать, в противном случае OCR или ввод вручную.

Если вы хотите проанализировать PDF, вы можете попробовать что-то вроде этого, что немного уродливо, но если вы анализируете то же самое PDF снова и снова может работать нормально. Если вам нужно что-то более общее и повторно используемое, я бы проверил сообщение создателя iText здесь. Его пост предназначен для групп с необязательным контентом, но он должен дать вам некоторые идеи для начала.

person Chris Haas    schedule 11.08.2014