Вопросы по теме 'pdftotext'

подпроцесс ничего не выводит
Я пытаюсь использовать Python для запуска pdftotext, но по какой-то причине мой код не работает. Если я запущу приведенное ниже, я ожидаю, что переменная содержимого будет содержать содержимое PDF-файла, но в результате я получаю просто пустую...
414 просмотров
schedule 01.08.2023

Как извлечь текст с помощью Zend_Pdf со страницы pdf
Кто-нибудь может помочь с извлечением текста из страницы в pdf? <?php $pdf = Zend_Pdf::load('example.pdf'); $page = $pdf->page[0]; Я бы предположил, что метод страницы существует, но я не смог найти ничего, что позволило бы мне извлечь...
4002 просмотров
schedule 29.04.2022

Как сохранить текстовый файл в формате UTF-8 с помощью pdftotext
Я использую инструмент с открытым исходным кодом pdftotext для преобразования PDF в текстовые файлы. Как сохранить текстовые файлы в формате UTF-8, чтобы сохранить все символы акцента в текстовых файлах. Я использую приведенную ниже команду для...
22871 просмотров
schedule 26.09.2022

PHP — конвертировать PDF в текст (нет доступа к exec/shell_exec)
Дело: Сервер не поддерживает exec/shell_exec (поэтому pdftotext исключен) Другие библиотеки не принимают PDF. Pdftotext работает (проверено на файлах локально) Вот некоторые выдержки из кода (PDF): 5 0 obj > stream...
673 просмотров
schedule 08.02.2024

Как преобразовать файл Pdf в файл doc в Java Swing?
как преобразовать файл PDF в файл документа и отобразить этот файл документа на панели jeditor. пожалуйста, помогите мне, спасибо
1310 просмотров
schedule 16.07.2022

Вывод pdftotext отличается на ПК с Windows 7 и Linux-сервере, почему?
Я использую одну и ту же версию xpdf на обеих машинах. Однако файл .txt, созданный на ПК с Windows 7, отличается от файла, созданного на Linux-сервере Ubuntu 12.04. Файл .txt для Windows 7 имеет правильный формат с многочисленными разрывами строк,...
291 просмотров
schedule 17.03.2024

Извлечение текста с помощью PdfMiner и столбцов слияния PyPDF2
Я пытаюсь проанализировать текст файла PDF с помощью pdfMiner, но извлеченный текст объединяется. Я использую файл pdf по следующей ссылке. PDF-файл Я хорошо работаю с любым типом вывода (файл/строка). Вот код, который возвращает извлеченный...
20144 просмотров
schedule 03.01.2023

Специальные символы неправильно преобразуются из pdf в текст
У меня есть набор файлов PDF, содержащих символы Центральной Европы, такие как č, Ď, Š и так далее. Я хочу преобразовать их в текст, и я пробовал pdftotext и PDFBox через Apache Tika, но всегда некоторые из них не преобразуются правильно....
2256 просмотров

Неточное преобразование pdf в текст
Я пробовал почти все конвертеры pdf в текст, доступные в Linux, но некоторые части текста были повреждены/неточны. Например, одни символы заменены другими, некоторые слова отсутствуют в тексте, который присутствует в pdf. Для некоторых слов...
365 просмотров
schedule 27.07.2022

Как я могу получить разметку простого текста, отформатированную с помощью pdftotext?
Я использую pdftotext для извлечения простого содержимого из файлов PDF. Но результат не имеет формата (например, абзацы, списки и т. д.). Как можно извлечь простой текст из PDF-файлов с помощью pdftotext и получить результат,...
164 просмотров
schedule 19.06.2023

Интеллектуальный анализ текста при сканировании: ошибка EOF в строке с кавычками
Мне нужно преобразовать 24 файла PDF в папке в файлы txt, чтобы я мог выполнить их семантический анализ. Я взглянул на это вопрос, оттуда и исходил. Однако после того, как код заработал в первый раз, я изменил некоторые вещи, и теперь я получаю...
371 просмотров
schedule 04.04.2023

как использовать PDDocument.loadNonSeq, метод удаления/анализа текста большого pdf
У меня есть несколько вопросов о парсинге pdf и как: какова цель использования PDDocument.loadNonSeq метод, который включает в себя временный файл? У меня есть большой PDF-файл, и мне нужно его разобрать и получить текстовое...
2746 просмотров
schedule 17.08.2022

Выбор определенного региона на изображении
Есть ли какая-либо бесплатная библиотека .net для winform или wpf, которая может обеспечить управление для выбора определенных областей в изображении, а затем мы можем сохранить эти области как разные изображения. Было бы здорово, если бы мы могли...
1223 просмотров
schedule 01.03.2023

Извлечение текста из PDF с помощью iTextSharp не работает для некоторых PDF
Я использую следующий код для извлечения текста из первой страницы файлов PDF с помощью iTextSharp: public static string ExtractTextFromPDFFirstPage(string fileName) { string text = null; using (var pdfReader = new PdfReader(fileName))...
1787 просмотров
schedule 11.12.2022

Как передать длинную строку через child_process.spawn() в Node.js?
Я читаю текст в формате pdf из ведра s3, используя S3fs.readFile, и я хотел бы получить результат, преобразовать в строку и сразу же открыть порождающий дочерний процесс, вызывающий pdftotext, передавая строку:...
576 просмотров

struct.error: для распаковки требуется строковый аргумент длиной 16
При обработке PDF-файла файла (2.pdf) с помощью pdfminer (pdf2txt.py) я получил следующую ошибку : pdf2txt.py 2.pdf Traceback (most recent call last): File "/usr/local/bin/pdf2txt.py", line 115, in <module> if __name__ ==...
5616 просмотров
schedule 30.07.2022

извлечь текст из pdf в php не работает для всех файлов PDF
Я извлекаю текст из файлов PDF. это код: <?php require("PdfToText.php"); $file = 'SamplePF' ; $pdf = new PdfToText ( "$file.pdf" ) ; echo ( $pdf -> Text ) ; ?> Этот класс отлично работает для некоторых файлов PDF....
868 просмотров
schedule 29.05.2023

Как посчитать похожие слова из массива с помощью функции strpos в php?
Я использую xpdf для преобразования pdf в текст, а затем с помощью функции регулярного выражения ищу слова после двоеточия в pdf, а затем зацикливаю эти данные с помощью функции strpos php и сохраняю их в базе данных. У меня работает для отдельных...
121 просмотров
schedule 18.07.2022

Как идентифицировать и удалить мусорные символы?
У меня есть китайский текстовый файл, в котором много искаженного текста между хорошим китайским текстом (из преобразования PDF в TXT). Как мне удалить искаженный текст, сохранив текст на китайском/английском языках? Вот сокращенная версия файла
190 просмотров

Запуск pdftotext x.pdf y.txt программно в Linux?
char *readFile(char *path, char *buffer) { if(strcmp(getExtenstion(path), "pdf") == 0){ pid_t pid = fork(); if(pid == 0) { execlp("pdftotext", path, "henok.txt"); } wait(NULL);...
146 просмотров
schedule 15.12.2023