Вопросы по теме 'pdfminer'

Как извлечь текст из PDF в соответствии с его местоположением?
У меня есть несколько PDF-файлов, и я хочу извлечь текст из определенного региона с их первых страниц. Итак, учитывая, что у меня есть координаты ограничивающей рамки для текста в PDF, как мне извлечь этот текст с помощью командной строки. Я...
1939 просмотров
schedule 26.02.2023

Работа с лигатурами с помощью pdfminer в Python
У меня есть скрипт Python, который читает текст из PDF-документов с помощью PDFminer следующим образом: def convert_pdf_to_txt(path): rsrcmgr = PDFResourceManager() retstr = StringIO() codec = 'utf-8' laparams = LAParams()...
1229 просмотров
schedule 15.06.2022

Разница между чтением из файла и MongoDB GridFS?
Я разрабатываю веб-сайт с помощью Python Flask framework , который будет обрабатывать PDF-файлы. Я храню PDF-файлы в MongoDB, которая отлично работает, когда мне нужно предоставить их посетителям. Теперь мне нужно извлечь текст и изображения, для...
272 просмотров
schedule 09.05.2023

Извлечение текста PDF возвращает неправильные символы из-за карты ToUnicode
Я пытаюсь извлечь текст из PDF-файла на иностранном языке с помощью PDFMiner, но мне мешает оператор ToUnicode. Файл ведет себя странно даже в обычных программах просмотра PDF. Например, вот скриншот из некоторого текста в файле: Но если я...
1890 просмотров
schedule 22.11.2022

Python прочитал часть страницы PDF
Я пытаюсь прочитать файл pdf, где каждая страница разделена на блоки информации 3x3 вида A | B | C D | E | F G | H | I Каждая запись разбита на несколько строк. Упрощенным примером одной записи является эта карточка . Но тогда были бы...
3548 просмотров
schedule 16.09.2023

Анализ pdf (скрипт деванагари) с использованием PDFminer дает неправильный вывод
Я пытаюсь разобрать PDF-файл, содержащий список индийских избирателей на хинди (скрипт деванагари). PDF отображает весь текст правильно, но когда я попытался сбросить этот pdf в текстовый формат с помощью PDFminer, он вывел символы, которые...
3068 просмотров
schedule 19.06.2023

Извлечение текста, написанного на хинди, из pdf в python
Я хочу извлечь текст, напечатанный на хинди, из pdf-документа. Я прикрепил изображение образца страницы Я имею дело с. Я пытался использовать pdfminer, чтобы получить из него текст, но текст искажен (может быть, из-за хинди-шрифтов) Теперь я...
4101 просмотров
schedule 21.02.2023

PDFQuery: получить номер страницы, на которой находится элемент
Это первый раз, когда я использую PDFQuery для очистки PDF-файлов. Что мне нужно сделать, так это получить цены из прайс-листа с несколькими страницами, я хочу передать код продукта в PDFQuery, и он должен найти код и вернуть цену рядом с ним....
2243 просмотров
schedule 06.10.2023

struct.error: для распаковки требуется строковый аргумент длиной 16
При обработке PDF-файла файла (2.pdf) с помощью pdfminer (pdf2txt.py) я получил следующую ошибку : pdf2txt.py 2.pdf Traceback (most recent call last): File "/usr/local/bin/pdf2txt.py", line 115, in <module> if __name__ ==...
5616 просмотров
schedule 30.07.2022

Получение данных из PDF-файла с тем же макетом, что и при копировании+вставке
У меня есть процедура, которую я хочу автоматизировать, которая включает в себя получение серии таблиц из файла PDF. В настоящее время я могу сделать это, открыв файл в любом средстве просмотра (Adobe, Sumatra, okular и т. д.) и просто нажав Ctrl+A,...
1329 просмотров
schedule 05.10.2022

Пустой вывод PDFminer
При обработке файла с помощью pdfminer (pdf2txt.py) я получил пустой вывод: dan@work:~/project$ pdf2txt.py docs/homericaeast.pdf dan@work:~/project$ Кто-нибудь может сказать, что не так с этим файлом и что я могу сделать, чтобы получить...
1654 просмотров
schedule 29.06.2022

PDFMiner - читать строки вместо столбцов
Я нашел некоторый код для извлечения данных в формате PDF ">от пользователя из stackoverflow . Но, глядя на вывод, он извлекает столбец за столбцом. Есть ли способ заставить pdfminer.six читать данные построчно? Это код, который я использовал...
1017 просмотров
schedule 25.06.2023

Ошибка при импорте pdfminer в aws lambda
Извините за повторный вопрос, потому что они не решили мою проблему, которая уже задавалась здесь раньше, как преобразовать pdf-файл из s3 в строковую переменную с помощью лямбда-функции, Моя лямбда-функция показывает ошибку Я нахожу приведенный...
698 просмотров

Tabula-py не может найти файл PDF
Я хочу проанализировать файл PDF с помощью pdfminer и таблица Я прочитал это вопрос , и я использую этот код: из pdfminer.pdfparser импортировать PDFParser из pdfminer.pdfdocument импортировать PDFDocument import magic from...
657 просмотров
schedule 31.05.2024

Извлечение текста из каждой страницы PDF с помощью pdfminer.six
Документация к pdfminer в лучшем случае оставляет желать лучшего. Первоначально я использовал pdfminer, и он работал с некоторыми файлами PDF, затем я столкнулся с некоторыми ошибками и понял, что должен использовать pdfminer.six Я хочу извлечь...
2618 просмотров
schedule 05.03.2023

Pdf Miner возвращает странные буквы/символы
Я использую pdfminer с python 3 и получаю странные буквы в тексте, восстановленном из pdf. Например, я получаю significant вместо significant (обратите внимание, что буквы f и I объединены в одну). Я понятия не имею, почему это происходит....
923 просмотров
schedule 04.11.2022

Ошибка при установке пакета Pdfminer в Anaconda
Я установил Anaconda 2.5 и какое-то время использовал spyder с Python2.7 . Я использовал pdfminer в те дни. Затем я захотел использовать Python3.6 . Поэтому я удалил Anaconda и установил Anaconda3.5 . И нет проблем с использованием...
1255 просмотров
schedule 22.05.2023

поиск закрытого файла из pdfminer PDFPage.get_pages()
Я пытаюсь преобразовать некоторые pdf-файлы в txt и получаю неожиданный EOF при разборе. Я также пытался работать с библиотекой pypdf2, поэтому мне не нужно было писать файлы txt, но он печатал только пробелы. Поэтому я попытался преобразовать...
499 просмотров
schedule 23.04.2023

Перенаправить вывод функции, которая преобразует файлы pdf в txt, в новую папку в python
Я использую Python 3. Мой код использует pdfminer для преобразования PDF в текст. Я хочу получить вывод этих файлов в новую папку. В настоящее время он находится в существующей папке, из которой он выполняет преобразование в .txt с помощью pdfminer....
115 просмотров

PDF-файл в Dict возвращает странные символы
Я пытаюсь создать программу, которая использует pdfminer для чтения таблицы символов DnD (заполняемый PDF-файл) и добавления заполнителей в словарь. После редактирования PDF и повторного запуска программы я получаю странную последовательность...
363 просмотров
schedule 15.03.2024