Как проверить, установлен ли флажок в неформальном PDF-файле с помощью С#?

Используя С#, я хочу увидеть, установлен ли определенный флажок на странице PDF. Файл PDF не является формой.

PDF-файл может выглядеть примерно так: введите здесь описание изображения

Пример файла находится здесь: MDS30ResidentP2.pdf (в этом примере файла я хочу как-то разобраться, что чек- флажок "E" в вопросе A1000 отмечен. Опять же: PDF не в формате "форма"!).

PS: ни один из следующих постов не решил мою проблему:

pdf c# pdf-parsing itextsharp

Tohid 08.08.2014 источник

comment

Что-то вроде OCR? - gunr2171 08.08.2014

comment

OCR, вероятно, единственный способ. С точки зрения PDF есть прямоугольник, и через некоторые из этих прямоугольников проведены две линии. Это даже не изображения, а настоящие команды векторного рисования. Возможно, вы могли бы поискать этот дополнительный рисунок x, но он не связан с текстом, который появляется рядом с ним, поэтому вам придется написать некоторую нечеткую логику, чтобы оценить, какой x соответствует какому тексту, и я думаю, что вы получите кучу ложных срабатываний. Если у вас их много, возможно, стоит что-то написать, в противном случае OCR или ввод вручную. - Chris Haas 08.08.2014

comment

@ChrisHaas - Итак, если я могу каким-то образом получить положение этого флажка и X в нем, я могу выяснить остальное. Вы знаете, как я могу это сделать? Любой пример кода? - Tohid 09.08.2014

comment

Вы можете попробовать что-то вроде этого, что немного некрасиво, но если вы снова и снова анализируете один и тот же PDF-файл, это может работать нормально. Если вам нужно что-то более общее и повторно используемое, я бы проверил сообщение создателя iText здесь. Его пост предназначен для групп с необязательным контентом, но он должен дать вам некоторые идеи для начала. - Chris Haas 09.08.2014

comment

Спасибо @ChrisHaas. Я работаю над этим сейчас, и я думаю, что я в правильном направлении, благодаря вам. Пожалуйста, объедините два ваших комментария и введите их как ответ, я отмечу их как правильный ответ. Это поможет людям с тем же вопросом. - Tohid 11.08.2014

Ответы (1)

arrow_upward
1
arrow_downward

OCR, вероятно, единственный способ. С точки зрения PDF есть прямоугольник, и через некоторые из этих прямоугольников проведены две линии. Это даже не изображения, а настоящие команды векторного рисования. Возможно, вы могли бы найти этот дополнительный рисунок «x», но он не связан с текстом, который появляется рядом с ним, поэтому вам придется написать некоторую нечеткую логику, чтобы оценить, какой «x» соответствует какому «тексту», и я думаю, что вы d в конечном итоге с кучей ложных срабатываний. Если у вас есть куча этих PDF-файлов, возможно, стоит что-то написать, в противном случае OCR или ввод вручную.

Если вы хотите проанализировать PDF, вы можете попробовать что-то вроде этого, что немного уродливо, но если вы анализируете то же самое PDF снова и снова может работать нормально. Если вам нужно что-то более общее и повторно используемое, я бы проверил сообщение создателя iText здесь. Его пост предназначен для групп с необязательным контентом, но он должен дать вам некоторые идеи для начала.

Chris Haas 11.08.2014

Как проверить, установлен ли флажок в неформальном PDF-файле с помощью С#?

Ответы (1)

Вопросы по теме