Публикации по тегам pdfminer

Вопросы по теме 'pdfminer'

Как извлечь текст из PDF в соответствии с его местоположением?

У меня есть несколько PDF-файлов, и я хочу извлечь текст из определенного региона с их первых страниц. Итак, учитывая, что у меня есть координаты ограничивающей рамки для текста в PDF, как мне извлечь этот текст с помощью командной строки. Я...

1939 просмотров

linux pdf pdfminer

26.02.2023

Работа с лигатурами с помощью pdfminer в Python

У меня есть скрипт Python, который читает текст из PDF-документов с помощью PDFminer следующим образом: def convert_pdf_to_txt(path): rsrcmgr = PDFResourceManager() retstr = StringIO() codec = 'utf-8' laparams = LAParams()...

1229 просмотров

python encoding unicode utf-8 pdfminer

15.06.2022

Разница между чтением из файла и MongoDB GridFS?

Я разрабатываю веб-сайт с помощью Python Flask framework , который будет обрабатывать PDF-файлы. Я храню PDF-файлы в MongoDB, которая отлично работает, когда мне нужно предоставить их посетителям. Теперь мне нужно извлечь текст и изображения, для...

272 просмотров

python pdf mongodb pdfminer gridfs

09.05.2023

Извлечение текста PDF возвращает неправильные символы из-за карты ToUnicode

Я пытаюсь извлечь текст из PDF-файла на иностранном языке с помощью PDFMiner, но мне мешает оператор ToUnicode. Файл ведет себя странно даже в обычных программах просмотра PDF. Например, вот скриншот из некоторого текста в файле: Но если я...

1890 просмотров

pdf pdfminer

22.11.2022

Python прочитал часть страницы PDF

Я пытаюсь прочитать файл pdf, где каждая страница разделена на блоки информации 3x3 вида A | B | C D | E | F G | H | I Каждая запись разбита на несколько строк. Упрощенным примером одной записи является эта карточка . Но тогда были бы...

3548 просмотров

python pdf pdfminer pypdf

16.09.2023

Анализ pdf (скрипт деванагари) с использованием PDFminer дает неправильный вывод

Я пытаюсь разобрать PDF-файл, содержащий список индийских избирателей на хинди (скрипт деванагари). PDF отображает весь текст правильно, но когда я попытался сбросить этот pdf в текстовый формат с помощью PDFminer, он вывел символы, которые...

3068 просмотров

python pdf parsing pdfminer hindi

19.06.2023

Извлечение текста, написанного на хинди, из pdf в python

Я хочу извлечь текст, напечатанный на хинди, из pdf-документа. Я прикрепил изображение образца страницы Я имею дело с. Я пытался использовать pdfminer, чтобы получить из него текст, но текст искажен (может быть, из-за хинди-шрифтов) Теперь я...

4101 просмотров

python pdf ocr pdfminer hindi

21.02.2023

PDFQuery: получить номер страницы, на которой находится элемент

Это первый раз, когда я использую PDFQuery для очистки PDF-файлов. Что мне нужно сделать, так это получить цены из прайс-листа с несколькими страницами, я хочу передать код продукта в PDFQuery, и он должен найти код и вернуть цену рядом с ним....

2243 просмотров

python pdf jquery pdfminer pyquery

06.10.2023

struct.error: для распаковки требуется строковый аргумент длиной 16

При обработке PDF-файла файла (2.pdf) с помощью pdfminer (pdf2txt.py) я получил следующую ошибку : pdf2txt.py 2.pdf Traceback (most recent call last): File "/usr/local/bin/pdf2txt.py", line 115, in <module> if __name__ ==...

5616 просмотров

python pdf pdfminer pdftotext pdf-parsing

30.07.2022

Получение данных из PDF-файла с тем же макетом, что и при копировании+вставке

У меня есть процедура, которую я хочу автоматизировать, которая включает в себя получение серии таблиц из файла PDF. В настоящее время я могу сделать это, открыв файл в любом средстве просмотра (Adobe, Sumatra, okular и т. д.) и просто нажав Ctrl+A,...

1329 просмотров

python pdf pdfminer

05.10.2022

Пустой вывод PDFminer

При обработке файла с помощью pdfminer (pdf2txt.py) я получил пустой вывод: dan@work:~/project$ pdf2txt.py docs/homericaeast.pdf dan@work:~/project$ Кто-нибудь может сказать, что не так с этим файлом и что я могу сделать, чтобы получить...

1654 просмотров

python pdf pdfminer pdf-parsing

29.06.2022

PDFMiner - читать строки вместо столбцов

Я нашел некоторый код для извлечения данных в формате PDF ">от пользователя из stackoverflow . Но, глядя на вывод, он извлекает столбец за столбцом. Есть ли способ заставить pdfminer.six читать данные построчно? Это код, который я использовал...

1017 просмотров

python-3.x python pdf pdfminer

25.06.2023

Ошибка при импорте pdfminer в aws lambda

Извините за повторный вопрос, потому что они не решили мою проблему, которая уже задавалась здесь раньше, как преобразовать pdf-файл из s3 в строковую переменную с помощью лямбда-функции, Моя лямбда-функция показывает ошибку Я нахожу приведенный...

698 просмотров

python amazon-web-services aws-lambda pdfminer

01.10.2022

Tabula-py не может найти файл PDF

Я хочу проанализировать файл PDF с помощью pdfminer и таблица Я прочитал это вопрос , и я использую этот код: из pdfminer.pdfparser импортировать PDFParser из pdfminer.pdfdocument импортировать PDFDocument import magic from...

657 просмотров

python python-2.7 pdf pdfminer tabula

31.05.2024

Извлечение текста из каждой страницы PDF с помощью pdfminer.six

Документация к pdfminer в лучшем случае оставляет желать лучшего. Первоначально я использовал pdfminer, и он работал с некоторыми файлами PDF, затем я столкнулся с некоторыми ошибками и понял, что должен использовать pdfminer.six Я хочу извлечь...

2618 просмотров

python pdf parsing pdfminer

05.03.2023

Pdf Miner возвращает странные буквы/символы

Я использую pdfminer с python 3 и получаю странные буквы в тексте, восстановленном из pdf. Например, я получаю signiﬁcant вместо significant (обратите внимание, что буквы f и I объединены в одну). Я понятия не имею, почему это происходит....

923 просмотров

python-3.x python text pdf pdfminer

04.11.2022

Ошибка при установке пакета Pdfminer в Anaconda

Я установил Anaconda 2.5 и какое-то время использовал spyder с Python2.7 . Я использовал pdfminer в те дни. Затем я захотел использовать Python3.6 . Поэтому я удалил Anaconda и установил Anaconda3.5 . И нет проблем с использованием...

1255 просмотров

pip python anaconda spyder pdfminer

22.05.2023

поиск закрытого файла из pdfminer PDFPage.get_pages()

Я пытаюсь преобразовать некоторые pdf-файлы в txt и получаю неожиданный EOF при разборе. Я также пытался работать с библиотекой pypdf2, поэтому мне не нужно было писать файлы txt, но он печатал только пробелы. Поэтому я попытался преобразовать...

499 просмотров

python pdfminer

23.04.2023

Перенаправить вывод функции, которая преобразует файлы pdf в txt, в новую папку в python

Я использую Python 3. Мой код использует pdfminer для преобразования PDF в текст. Я хочу получить вывод этих файлов в новую папку. В настоящее время он находится в существующей папке, из которой он выполняет преобразование в .txt с помощью pdfminer....

115 просмотров

python file-io output file-handling pdfminer

29.11.2022

PDF-файл в Dict возвращает странные символы

Я пытаюсь создать программу, которая использует pdfminer для чтения таблицы символов DnD (заполняемый PDF-файл) и добавления заполнителей в словарь. После редактирования PDF и повторного запуска программы я получаю странную последовательность...

363 просмотров

python-3.x python pdf pdfminer

15.03.2024