Вопросы по теме 'pdf-parsing'
Как сослаться на интерфейс PDF IFilter (dll), встроенный в Windows, для извлечения текста и свойств документа PDF с помощью Classic ASP
Я хочу извлечь текст и свойства (автор, заголовок и т. д.) файла PDF.
Мне нужно извлечь и проанализировать текст из файла PDF в классической среде ASP. Я прочитал еще один пост об использовании драйвера PDF iFilter, установленного с Adobe Acrobat...
1031 просмотров
schedule
18.09.2022
Ошибка при анализе двоичных файлов (в основном PDF)
Я пытаюсь проанализировать pdf-файл с помощью Apache Tika, используя ByteArrayInputStream для двоичных файлов... И начал получать ошибку для некоторых pdf-файлов, а для некоторых он анализируется очень хорошо.. Ранее я мог анализировать те же...
4460 просмотров
schedule
20.03.2023
Разбор файлов PDF в Hadoop Map Reduce
Мне нужно разобрать файлы PDF, которые находятся в HDFS, в программе уменьшения карты в Hadoop. Итак, я получаю PDF-файл из HDFS в виде разделений ввода , и его нужно проанализировать и отправить в класс Mapper. Для реализации этого InputFormat я...
8785 просмотров
schedule
09.09.2022
Разбор PDF без объекта /Root с помощью PDFMiner
Я пытаюсь извлечь текст из большого количества PDF-файлов, используя привязки Python PDFMiner. Модуль, который я написал, работает для многих PDF-файлов, но я получаю эту загадочную ошибку для подмножества PDF-файлов:
трассировка стека ipython:...
13749 просмотров
schedule
17.03.2023
Смешивание таблиц XRef и потоков XRef
Это правда, что вы не можете иметь общие таблицы XRef и потоки XRef в файле PDF? Я думал, что это то, что можно назвать «гибридным PDF-документом»!
Есть идеи?
1080 просмотров
schedule
14.06.2023
Что это (cid: 51) в выводе pdf2txt?
Итак, я пытаюсь извлечь текст из файла PDF, мне нужно его положение, ширина, высота, шрифт.
Я пробовал много, но наиболее полезным и полным решением является PDFMiner , и в этом случае, точнее, pdf2txt.py .
Я следил за документом и примерами...
5584 просмотров
schedule
05.11.2022
Ошибка Python PDFMiner: нет объекта / Root! - Это действительно PDF?
Я получаю сообщение об ошибке «Нет / корневой объект! - Это действительно PDF?» используя мой компьютер MAC с Python 2.7 и PDFMiner версии 20110515. Файлы PDF не повреждены, поскольку та же программа с такими же файлами работает на моем...
2954 просмотров
schedule
09.04.2023
Информация о шрифте текста в PDF с использованием PDFBox
Я новичок в библиотеке Apache PDFBox.
Я хочу сопоставить информацию о шрифте с абзацами PDF
Я уже прошел через Questios Как сделать извлекать стили шрифтов из текстового содержимого с помощью pdfbox?
Но он не дает информации о том, какой...
2547 просмотров
schedule
13.07.2022
Разница между версиями iTextSharp 4.1.6 и 5.x
Мы разрабатываем парсер Pdf, который будет использоваться вместе с нашей системой. Требование таково, что мы храним всю информацию о любых pdf-документах и должны иметь возможность воспроизвести документ как таковой (с минимальными изменениями по...
14740 просмотров
schedule
25.01.2023
Как очистить таблицы в тысячах PDF-файлов?
У меня есть около 1500 PDF-файлов, состоящих всего из 1 страницы каждый и имеющих одинаковую структуру (см. http://files.newsnetz.ch/extern/interactive/downloads/BAG_15m_kzh_2012_de.pdf в качестве примера).
То, что я ищу, - это способ перебрать...
11066 просмотров
schedule
01.04.2023
Как проверить, установлен ли флажок в неформальном PDF-файле с помощью С#?
Используя С#, я хочу увидеть, установлен ли определенный флажок на странице PDF. Файл PDF не является формой.
PDF-файл может выглядеть примерно так:
Пример файла находится здесь: MDS30ResidentP2.pdf (в этом примере файла я хочу как-то...
2500 просмотров
schedule
08.09.2022
Класс 'Smalot\PdfParser\Parser' не найден
Я пытаюсь использовать библиотеку Pdfparser для анализа PDF-файла, но у меня есть некоторые проблемы с включением классов.
Я прочитал документацию , но она не работает.
Я использую Windows и XAMPP.
Я создал каталог в...
3911 просмотров
schedule
21.10.2023
struct.error: для распаковки требуется строковый аргумент длиной 16
При обработке PDF-файла файла (2.pdf) с помощью pdfminer (pdf2txt.py) я получил следующую ошибку :
pdf2txt.py 2.pdf
Traceback (most recent call last):
File "/usr/local/bin/pdf2txt.py", line 115, in <module>
if __name__ ==...
5616 просмотров
schedule
30.07.2022
Предотвращение удаления Jsoup.parse закрывающего тега ‹/img›
Я разбираю кусок html с помощью Jsoup.parse.
Все остальное отлично, но я должен разобрать этот html позже в конвертере pdf.
По какой-то причине Jsoup.parse удаляет закрывающий тег, а pdf-анализатор выдает исключение об отсутствии закрывающего...
3412 просмотров
schedule
24.07.2023
Пустой вывод PDFminer
При обработке файла с помощью pdfminer (pdf2txt.py) я получил пустой вывод:
dan@work:~/project$ pdf2txt.py docs/homericaeast.pdf
dan@work:~/project$
Кто-нибудь может сказать, что не так с этим файлом и что я могу сделать, чтобы получить...
1654 просмотров
schedule
29.06.2022
Использование functools.partial для создания пользовательских фильтров для ошибки атрибута получения pdfquery
Фон
Я использую pdfquery для анализа нескольких файлов, таких как этот .
Проблема
Я пытаюсь написать обобщенную функцию фильтрации, построенную на основе пользовательских селекторов, упомянутых в pdfquery's docs , который может принимать в...
190 просмотров
schedule
01.05.2023
Таблицы не найдены, а текст объединенного столбца при извлечении данных из этого PDF-файла с помощью Camelot
Я получаю UserWarning: No tables found on page-1 , когда пытаюсь извлечь таблицы из прикрепленного PDF-файла. Однако, когда я посмотрел на извлеченные данные, часть текста столбца была объединена в один столбец ».
Я использую Camelot для...
2484 просмотров
schedule
02.06.2022