Публикации по тегам pdf-parsing

Вопросы по теме 'pdf-parsing'

Как сослаться на интерфейс PDF IFilter (dll), встроенный в Windows, для извлечения текста и свойств документа PDF с помощью Classic ASP

Я хочу извлечь текст и свойства (автор, заголовок и т. д.) файла PDF. Мне нужно извлечь и проанализировать текст из файла PDF в классической среде ASP. Я прочитал еще один пост об использовании драйвера PDF iFilter, установленного с Adobe Acrobat...

1031 просмотров

asp-classic pdf-parsing ifilter

18.09.2022

Ошибка при анализе двоичных файлов (в основном PDF)

Я пытаюсь проанализировать pdf-файл с помощью Apache Tika, используя ByteArrayInputStream для двоичных файлов... И начал получать ошибку для некоторых pdf-файлов, а для некоторых он анализируется очень хорошо.. Ранее я мог анализировать те же...

4460 просмотров

java parsing apache-tika pdf-parsing

20.03.2023

Разбор файлов PDF в Hadoop Map Reduce

Мне нужно разобрать файлы PDF, которые находятся в HDFS, в программе уменьшения карты в Hadoop. Итак, я получаю PDF-файл из HDFS в виде разделений ввода , и его нужно проанализировать и отправить в класс Mapper. Для реализации этого InputFormat я...

8785 просмотров

pdf hadoop mapreduce pdf-parsing

09.09.2022

Разбор PDF без объекта /Root с помощью PDFMiner

Я пытаюсь извлечь текст из большого количества PDF-файлов, используя привязки Python PDFMiner. Модуль, который я написал, работает для многих PDF-файлов, но я получаю эту загадочную ошибку для подмножества PDF-файлов: трассировка стека ipython:...

13749 просмотров

python pypdf pdf-parsing pdf-manipulation

17.03.2023

Смешивание таблиц XRef и потоков XRef

Это правда, что вы не можете иметь общие таблицы XRef и потоки XRef в файле PDF? Я думал, что это то, что можно назвать «гибридным PDF-документом»! Есть идеи?

1080 просмотров

pdf pdf-generation pdf-parsing

14.06.2023

Что это (cid: 51) в выводе pdf2txt?

Итак, я пытаюсь извлечь текст из файла PDF, мне нужно его положение, ширина, высота, шрифт. Я пробовал много, но наиболее полезным и полным решением является PDFMiner , и в этом случае, точнее, pdf2txt.py . Я следил за документом и примерами...

5584 просмотров

python xml pdf-parsing

05.11.2022

Ошибка Python PDFMiner: нет объекта / Root! - Это действительно PDF?

Я получаю сообщение об ошибке «Нет / корневой объект! - Это действительно PDF?» используя мой компьютер MAC с Python 2.7 и PDFMiner версии 20110515. Файлы PDF не повреждены, поскольку та же программа с такими же файлами работает на моем...

2954 просмотров

macos python pdf pdf-parsing document-root

09.04.2023

Информация о шрифте текста в PDF с использованием PDFBox

Я новичок в библиотеке Apache PDFBox. Я хочу сопоставить информацию о шрифте с абзацами PDF Я уже прошел через Questios Как сделать извлекать стили шрифтов из текстового содержимого с помощью pdfbox? Но он не дает информации о том, какой...

2547 просмотров

java pdfbox text-extraction pdf-parsing

13.07.2022

Разница между версиями iTextSharp 4.1.6 и 5.x

Мы разрабатываем парсер Pdf, который будет использоваться вместе с нашей системой. Требование таково, что мы храним всю информацию о любых pdf-документах и должны иметь возможность воспроизвести документ как таковой (с минимальными изменениями по...

14740 просмотров

pdf itext licensing pdf-parsing itextsharp

25.01.2023

Как очистить таблицы в тысячах PDF-файлов?

У меня есть около 1500 PDF-файлов, состоящих всего из 1 страницы каждый и имеющих одинаковую структуру (см. http://files.newsnetz.ch/extern/interactive/downloads/BAG_15m_kzh_2012_de.pdf в качестве примера). То, что я ищу, - это способ перебрать...

11066 просмотров

python node.js parsing web-scraping pdf-parsing

01.04.2023

Как проверить, установлен ли флажок в неформальном PDF-файле с помощью С#?

Используя С#, я хочу увидеть, установлен ли определенный флажок на странице PDF. Файл PDF не является формой. PDF-файл может выглядеть примерно так: Пример файла находится здесь: MDS30ResidentP2.pdf (в этом примере файла я хочу как-то...

2500 просмотров

pdf c# pdf-parsing itextsharp

08.09.2022

Класс 'Smalot\PdfParser\Parser' не найден

Я пытаюсь использовать библиотеку Pdfparser для анализа PDF-файла, но у меня есть некоторые проблемы с включением классов. Я прочитал документацию , но она не работает. Я использую Windows и XAMPP. Я создал каталог в...

3911 просмотров

php pdf-parsing

21.10.2023

struct.error: для распаковки требуется строковый аргумент длиной 16

При обработке PDF-файла файла (2.pdf) с помощью pdfminer (pdf2txt.py) я получил следующую ошибку : pdf2txt.py 2.pdf Traceback (most recent call last): File "/usr/local/bin/pdf2txt.py", line 115, in <module> if __name__ ==...

5616 просмотров

python pdf pdfminer pdftotext pdf-parsing

30.07.2022

Предотвращение удаления Jsoup.parse закрывающего тега ‹/img›

Я разбираю кусок html с помощью Jsoup.parse. Все остальное отлично, но я должен разобрать этот html позже в конвертере pdf. По какой-то причине Jsoup.parse удаляет закрывающий тег, а pdf-анализатор выдает исключение об отсутствии закрывающего...

3412 просмотров

java html-parsing jsoup pdf-parsing

24.07.2023

Пустой вывод PDFminer

При обработке файла с помощью pdfminer (pdf2txt.py) я получил пустой вывод: dan@work:~/project$ pdf2txt.py docs/homericaeast.pdf dan@work:~/project$ Кто-нибудь может сказать, что не так с этим файлом и что я могу сделать, чтобы получить...

1654 просмотров

python pdf pdfminer pdf-parsing

29.06.2022

Использование functools.partial для создания пользовательских фильтров для ошибки атрибута получения pdfquery

Фон Я использую pdfquery для анализа нескольких файлов, таких как этот . Проблема Я пытаюсь написать обобщенную функцию фильтрации, построенную на основе пользовательских селекторов, упомянутых в pdfquery's docs , который может принимать в...

190 просмотров

python-3.x python pdf functools pdf-parsing

01.05.2023

Таблицы не найдены, а текст объединенного столбца при извлечении данных из этого PDF-файла с помощью Camelot

Я получаю UserWarning: No tables found on page-1 , когда пытаюсь извлечь таблицы из прикрепленного PDF-файла. Однако, когда я посмотрел на извлеченные данные, часть текста столбца была объединена в один столбец ». Я использую Camelot для...

2484 просмотров

python python-camelot pdf-parsing

02.06.2022