Вопросы по теме 'pdf-parsing'

Как сослаться на интерфейс PDF IFilter (dll), встроенный в Windows, для извлечения текста и свойств документа PDF с помощью Classic ASP
Я хочу извлечь текст и свойства (автор, заголовок и т. д.) файла PDF. Мне нужно извлечь и проанализировать текст из файла PDF в классической среде ASP. Я прочитал еще один пост об использовании драйвера PDF iFilter, установленного с Adobe Acrobat...
1031 просмотров
schedule 18.09.2022

Ошибка при анализе двоичных файлов (в основном PDF)
Я пытаюсь проанализировать pdf-файл с помощью Apache Tika, используя ByteArrayInputStream для двоичных файлов... И начал получать ошибку для некоторых pdf-файлов, а для некоторых он анализируется очень хорошо.. Ранее я мог анализировать те же...
4460 просмотров
schedule 20.03.2023

Разбор файлов PDF в Hadoop Map Reduce
Мне нужно разобрать файлы PDF, которые находятся в HDFS, в программе уменьшения карты в Hadoop. Итак, я получаю PDF-файл из HDFS в виде разделений ввода , и его нужно проанализировать и отправить в класс Mapper. Для реализации этого InputFormat я...
8785 просмотров
schedule 09.09.2022

Разбор PDF без объекта /Root с помощью PDFMiner
Я пытаюсь извлечь текст из большого количества PDF-файлов, используя привязки Python PDFMiner. Модуль, который я написал, работает для многих PDF-файлов, но я получаю эту загадочную ошибку для подмножества PDF-файлов: трассировка стека ipython:...
13749 просмотров

Смешивание таблиц XRef и потоков XRef
Это правда, что вы не можете иметь общие таблицы XRef и потоки XRef в файле PDF? Я думал, что это то, что можно назвать «гибридным PDF-документом»! Есть идеи?
1080 просмотров
schedule 14.06.2023

Что это (cid: 51) в выводе pdf2txt?
Итак, я пытаюсь извлечь текст из файла PDF, мне нужно его положение, ширина, высота, шрифт. Я пробовал много, но наиболее полезным и полным решением является PDFMiner , и в этом случае, точнее, pdf2txt.py . Я следил за документом и примерами...
5584 просмотров
schedule 05.11.2022

Ошибка Python PDFMiner: нет объекта / Root! - Это действительно PDF?
Я получаю сообщение об ошибке «Нет / корневой объект! - Это действительно PDF?» используя мой компьютер MAC с Python 2.7 и PDFMiner версии 20110515. Файлы PDF не повреждены, поскольку та же программа с такими же файлами работает на моем...
2954 просмотров
schedule 09.04.2023

Информация о шрифте текста в PDF с использованием PDFBox
Я новичок в библиотеке Apache PDFBox. Я хочу сопоставить информацию о шрифте с абзацами PDF Я уже прошел через Questios Как сделать извлекать стили шрифтов из текстового содержимого с помощью pdfbox? Но он не дает информации о том, какой...
2547 просмотров
schedule 13.07.2022

Разница между версиями iTextSharp 4.1.6 и 5.x
Мы разрабатываем парсер Pdf, который будет использоваться вместе с нашей системой. Требование таково, что мы храним всю информацию о любых pdf-документах и ​​должны иметь возможность воспроизвести документ как таковой (с минимальными изменениями по...
14740 просмотров
schedule 25.01.2023

Как очистить таблицы в тысячах PDF-файлов?
У меня есть около 1500 PDF-файлов, состоящих всего из 1 страницы каждый и имеющих одинаковую структуру (см. http://files.newsnetz.ch/extern/interactive/downloads/BAG_15m_kzh_2012_de.pdf в качестве примера). То, что я ищу, - это способ перебрать...
11066 просмотров

Как проверить, установлен ли флажок в неформальном PDF-файле с помощью С#?
Используя С#, я хочу увидеть, установлен ли определенный флажок на странице PDF. Файл PDF не является формой. PDF-файл может выглядеть примерно так: Пример файла находится здесь: MDS30ResidentP2.pdf (в этом примере файла я хочу как-то...
2500 просмотров
schedule 08.09.2022

Класс 'Smalot\PdfParser\Parser' не найден
Я пытаюсь использовать библиотеку Pdfparser для анализа PDF-файла, но у меня есть некоторые проблемы с включением классов. Я прочитал документацию , но она не работает. Я использую Windows и XAMPP. Я создал каталог в...
3911 просмотров
schedule 21.10.2023

struct.error: для распаковки требуется строковый аргумент длиной 16
При обработке PDF-файла файла (2.pdf) с помощью pdfminer (pdf2txt.py) я получил следующую ошибку : pdf2txt.py 2.pdf Traceback (most recent call last): File "/usr/local/bin/pdf2txt.py", line 115, in <module> if __name__ ==...
5616 просмотров
schedule 30.07.2022

Предотвращение удаления Jsoup.parse закрывающего тега ‹/img›
Я разбираю кусок html с помощью Jsoup.parse. Все остальное отлично, но я должен разобрать этот html позже в конвертере pdf. По какой-то причине Jsoup.parse удаляет закрывающий тег, а pdf-анализатор выдает исключение об отсутствии закрывающего...
3412 просмотров
schedule 24.07.2023

Пустой вывод PDFminer
При обработке файла с помощью pdfminer (pdf2txt.py) я получил пустой вывод: dan@work:~/project$ pdf2txt.py docs/homericaeast.pdf dan@work:~/project$ Кто-нибудь может сказать, что не так с этим файлом и что я могу сделать, чтобы получить...
1654 просмотров
schedule 29.06.2022

Использование functools.partial для создания пользовательских фильтров для ошибки атрибута получения pdfquery
Фон Я использую pdfquery для анализа нескольких файлов, таких как этот . Проблема Я пытаюсь написать обобщенную функцию фильтрации, построенную на основе пользовательских селекторов, упомянутых в pdfquery's docs , который может принимать в...
190 просмотров
schedule 01.05.2023

Таблицы не найдены, а текст объединенного столбца при извлечении данных из этого PDF-файла с помощью Camelot
Я получаю UserWarning: No tables found on page-1 , когда пытаюсь извлечь таблицы из прикрепленного PDF-файла. Однако, когда я посмотрел на извлеченные данные, часть текста столбца была объединена в один столбец ». Я использую Camelot для...
2484 просмотров
schedule 02.06.2022