Вопросы по теме 'pdfminer'
Как извлечь текст из PDF в соответствии с его местоположением?
У меня есть несколько PDF-файлов, и я хочу извлечь текст из определенного региона с их первых страниц. Итак, учитывая, что у меня есть координаты ограничивающей рамки для текста в PDF, как мне извлечь этот текст с помощью командной строки.
Я...
1939 просмотров
schedule
26.02.2023
Работа с лигатурами с помощью pdfminer в Python
У меня есть скрипт Python, который читает текст из PDF-документов с помощью PDFminer следующим образом:
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()...
1229 просмотров
schedule
15.06.2022
Разница между чтением из файла и MongoDB GridFS?
Я разрабатываю веб-сайт с помощью Python Flask framework , который будет обрабатывать PDF-файлы. Я храню PDF-файлы в MongoDB, которая отлично работает, когда мне нужно предоставить их посетителям. Теперь мне нужно извлечь текст и изображения, для...
272 просмотров
schedule
09.05.2023
Извлечение текста PDF возвращает неправильные символы из-за карты ToUnicode
Я пытаюсь извлечь текст из PDF-файла на иностранном языке с помощью PDFMiner, но мне мешает оператор ToUnicode. Файл ведет себя странно даже в обычных программах просмотра PDF.
Например, вот скриншот из некоторого текста в файле:
Но если я...
1890 просмотров
schedule
22.11.2022
Python прочитал часть страницы PDF
Я пытаюсь прочитать файл pdf, где каждая страница разделена на блоки информации 3x3 вида
A | B | C
D | E | F
G | H | I
Каждая запись разбита на несколько строк. Упрощенным примером одной записи является эта карточка . Но тогда были бы...
3548 просмотров
schedule
16.09.2023
Анализ pdf (скрипт деванагари) с использованием PDFminer дает неправильный вывод
Я пытаюсь разобрать PDF-файл, содержащий список индийских избирателей на хинди (скрипт деванагари).
PDF отображает весь текст правильно, но когда я попытался сбросить этот pdf в текстовый формат с помощью PDFminer, он вывел символы, которые...
3068 просмотров
schedule
19.06.2023
Извлечение текста, написанного на хинди, из pdf в python
Я хочу извлечь текст, напечатанный на хинди, из pdf-документа. Я прикрепил изображение образца страницы Я имею дело с.
Я пытался использовать pdfminer, чтобы получить из него текст, но текст искажен (может быть, из-за хинди-шрифтов)
Теперь я...
4101 просмотров
schedule
21.02.2023
PDFQuery: получить номер страницы, на которой находится элемент
Это первый раз, когда я использую PDFQuery для очистки PDF-файлов.
Что мне нужно сделать, так это получить цены из прайс-листа с несколькими страницами, я хочу передать код продукта в PDFQuery, и он должен найти код и вернуть цену рядом с ним....
2243 просмотров
schedule
06.10.2023
struct.error: для распаковки требуется строковый аргумент длиной 16
При обработке PDF-файла файла (2.pdf) с помощью pdfminer (pdf2txt.py) я получил следующую ошибку :
pdf2txt.py 2.pdf
Traceback (most recent call last):
File "/usr/local/bin/pdf2txt.py", line 115, in <module>
if __name__ ==...
5616 просмотров
schedule
30.07.2022
Получение данных из PDF-файла с тем же макетом, что и при копировании+вставке
У меня есть процедура, которую я хочу автоматизировать, которая включает в себя получение серии таблиц из файла PDF. В настоящее время я могу сделать это, открыв файл в любом средстве просмотра (Adobe, Sumatra, okular и т. д.) и просто нажав Ctrl+A,...
1329 просмотров
schedule
05.10.2022
Пустой вывод PDFminer
При обработке файла с помощью pdfminer (pdf2txt.py) я получил пустой вывод:
dan@work:~/project$ pdf2txt.py docs/homericaeast.pdf
dan@work:~/project$
Кто-нибудь может сказать, что не так с этим файлом и что я могу сделать, чтобы получить...
1654 просмотров
schedule
29.06.2022
PDFMiner - читать строки вместо столбцов
Я нашел некоторый код для извлечения данных в формате PDF ">от пользователя из stackoverflow . Но, глядя на вывод, он извлекает столбец за столбцом. Есть ли способ заставить pdfminer.six читать данные построчно?
Это код, который я использовал...
1017 просмотров
schedule
25.06.2023
Ошибка при импорте pdfminer в aws lambda
Извините за повторный вопрос, потому что они не решили мою проблему, которая уже задавалась здесь раньше, как преобразовать pdf-файл из s3 в строковую переменную с помощью лямбда-функции,
Моя лямбда-функция показывает ошибку
Я нахожу приведенный...
698 просмотров
schedule
01.10.2022
Tabula-py не может найти файл PDF
Я хочу проанализировать файл PDF с помощью pdfminer и таблица
Я прочитал это вопрос , и я использую этот код:
из pdfminer.pdfparser импортировать PDFParser из pdfminer.pdfdocument импортировать PDFDocument
import magic
from...
657 просмотров
schedule
31.05.2024
Извлечение текста из каждой страницы PDF с помощью pdfminer.six
Документация к pdfminer в лучшем случае оставляет желать лучшего. Первоначально я использовал pdfminer, и он работал с некоторыми файлами PDF, затем я столкнулся с некоторыми ошибками и понял, что должен использовать pdfminer.six
Я хочу извлечь...
2618 просмотров
schedule
05.03.2023
Pdf Miner возвращает странные буквы/символы
Я использую pdfminer с python 3 и получаю странные буквы в тексте, восстановленном из pdf.
Например, я получаю significant вместо significant (обратите внимание, что буквы f и I объединены в одну).
Я понятия не имею, почему это происходит....
923 просмотров
schedule
04.11.2022
Ошибка при установке пакета Pdfminer в Anaconda
Я установил Anaconda 2.5 и какое-то время использовал spyder с Python2.7 . Я использовал pdfminer в те дни. Затем я захотел использовать Python3.6 . Поэтому я удалил Anaconda и установил Anaconda3.5 . И нет проблем с использованием...
1255 просмотров
schedule
22.05.2023
поиск закрытого файла из pdfminer PDFPage.get_pages()
Я пытаюсь преобразовать некоторые pdf-файлы в txt и получаю неожиданный EOF при разборе. Я также пытался работать с библиотекой pypdf2, поэтому мне не нужно было писать файлы txt, но он печатал только пробелы. Поэтому я попытался преобразовать...
499 просмотров
schedule
23.04.2023
Перенаправить вывод функции, которая преобразует файлы pdf в txt, в новую папку в python
Я использую Python 3. Мой код использует pdfminer для преобразования PDF в текст. Я хочу получить вывод этих файлов в новую папку. В настоящее время он находится в существующей папке, из которой он выполняет преобразование в .txt с помощью pdfminer....
115 просмотров
schedule
29.11.2022
PDF-файл в Dict возвращает странные символы
Я пытаюсь создать программу, которая использует pdfminer для чтения таблицы символов DnD (заполняемый PDF-файл) и добавления заполнителей в словарь. После редактирования PDF и повторного запуска программы я получаю странную последовательность...
363 просмотров
schedule
15.03.2024