Ошибка Python PDFMiner: нет объекта / Root! - Это действительно PDF?

Я получаю сообщение об ошибке «Нет / корневой объект! - Это действительно PDF?» используя мой компьютер MAC с Python 2.7 и PDFMiner версии 20110515. Файлы PDF не повреждены, поскольку та же программа с такими же файлами работает на моем компьютере! Также я пробовал много PDF-файлов, и эта ошибка существует для всех из них. Есть идеи, что мне следует изменить в моем MAC, чтобы не получить эту ошибку?


person Mahshid Zeinaly    schedule 26.06.2013    source источник
comment
Версия 20110515 PDFMiner является бета-версией, поэтому в ней могут быть ошибки. К счастью, это чистый Python, который может облегчить отладку. Описанная вами проблема может быть связана с тем, как обрабатываются концы строк в анализируемых файлах. Убедитесь, что они открываются в двоичном режиме, т.е. fp = open('mypdf.pdf', 'rb'). Также может быть полезно запустить прилагаемую dumppdf.py утилиту для проблемных файлов. Наконец, ошибка может быть связана с тем фактом, что интерпретатор Python, который вы используете, варьируется от машины к машине. Универсальная поддержка новой строки встроена не во все версии Python.   -  person martineau    schedule 27.06.2013


Ответы (1)


Я нашел источник проблемы:

У меня был способ прочитать все файлы в каталоге и проанализировать их. Оказывается, у меня в этом каталоге был один скрытый файл, который не был файлом pdf!

Вот как я решил проблему:

for filename in os.listdir(INPUT_DIR_NAME):
    if filename.endswith('.pdf'):
        #do stuff!
person Mahshid Zeinaly    schedule 12.09.2013