Вопросы по теме 'pdftotext'
подпроцесс ничего не выводит
Я пытаюсь использовать Python для запуска pdftotext, но по какой-то причине мой код не работает. Если я запущу приведенное ниже, я ожидаю, что переменная содержимого будет содержать содержимое PDF-файла, но в результате я получаю просто пустую...
414 просмотров
schedule
01.08.2023
Как извлечь текст с помощью Zend_Pdf со страницы pdf
Кто-нибудь может помочь с извлечением текста из страницы в pdf?
<?php
$pdf = Zend_Pdf::load('example.pdf');
$page = $pdf->page[0];
Я бы предположил, что метод страницы существует, но я не смог найти ничего, что позволило бы мне извлечь...
4002 просмотров
schedule
29.04.2022
Как сохранить текстовый файл в формате UTF-8 с помощью pdftotext
Я использую инструмент с открытым исходным кодом pdftotext для преобразования PDF в текстовые файлы. Как сохранить текстовые файлы в формате UTF-8, чтобы сохранить все символы акцента в текстовых файлах. Я использую приведенную ниже команду для...
22871 просмотров
schedule
26.09.2022
PHP — конвертировать PDF в текст (нет доступа к exec/shell_exec)
Дело:
Сервер не поддерживает exec/shell_exec (поэтому pdftotext исключен)
Другие библиотеки не принимают PDF. Pdftotext работает (проверено на файлах локально)
Вот некоторые выдержки из кода (PDF):
5 0 obj
>
stream...
673 просмотров
schedule
08.02.2024
Как преобразовать файл Pdf в файл doc в Java Swing?
как преобразовать файл PDF в файл документа и отобразить этот файл документа на панели jeditor. пожалуйста, помогите мне, спасибо
1310 просмотров
schedule
16.07.2022
Вывод pdftotext отличается на ПК с Windows 7 и Linux-сервере, почему?
Я использую одну и ту же версию xpdf на обеих машинах. Однако файл .txt, созданный на ПК с Windows 7, отличается от файла, созданного на Linux-сервере Ubuntu 12.04. Файл .txt для Windows 7 имеет правильный формат с многочисленными разрывами строк,...
291 просмотров
schedule
17.03.2024
Извлечение текста с помощью PdfMiner и столбцов слияния PyPDF2
Я пытаюсь проанализировать текст файла PDF с помощью pdfMiner, но извлеченный текст объединяется. Я использую файл pdf по следующей ссылке.
PDF-файл
Я хорошо работаю с любым типом вывода (файл/строка). Вот код, который возвращает извлеченный...
20144 просмотров
schedule
03.01.2023
Специальные символы неправильно преобразуются из pdf в текст
У меня есть набор файлов PDF, содержащих символы Центральной Европы, такие как č, Ď, Š и так далее. Я хочу преобразовать их в текст, и я пробовал pdftotext и PDFBox через Apache Tika, но всегда некоторые из них не преобразуются правильно....
2256 просмотров
schedule
27.03.2023
Неточное преобразование pdf в текст
Я пробовал почти все конвертеры pdf в текст, доступные в Linux, но некоторые части текста были повреждены/неточны. Например, одни символы заменены другими, некоторые слова отсутствуют в тексте, который присутствует в pdf. Для некоторых слов...
365 просмотров
schedule
27.07.2022
Как я могу получить разметку простого текста, отформатированную с помощью pdftotext?
Я использую pdftotext для извлечения простого содержимого из файлов PDF.
Но результат не имеет формата (например, абзацы, списки и т. д.). Как можно извлечь простой текст из PDF-файлов с помощью pdftotext и получить результат,...
164 просмотров
schedule
19.06.2023
Интеллектуальный анализ текста при сканировании: ошибка EOF в строке с кавычками
Мне нужно преобразовать 24 файла PDF в папке в файлы txt, чтобы я мог выполнить их семантический анализ. Я взглянул на это вопрос, оттуда и исходил. Однако после того, как код заработал в первый раз, я изменил некоторые вещи, и теперь я получаю...
371 просмотров
schedule
04.04.2023
как использовать PDDocument.loadNonSeq, метод удаления/анализа текста большого pdf
У меня есть несколько вопросов о парсинге pdf и как:
какова цель использования
PDDocument.loadNonSeq метод, который включает в себя временный файл?
У меня есть большой PDF-файл, и мне нужно его разобрать и получить текстовое...
2746 просмотров
schedule
17.08.2022
Выбор определенного региона на изображении
Есть ли какая-либо бесплатная библиотека .net для winform или wpf, которая может обеспечить управление для выбора определенных областей в изображении, а затем мы можем сохранить эти области как разные изображения. Было бы здорово, если бы мы могли...
1223 просмотров
schedule
01.03.2023
Извлечение текста из PDF с помощью iTextSharp не работает для некоторых PDF
Я использую следующий код для извлечения текста из первой страницы файлов PDF с помощью iTextSharp:
public static string ExtractTextFromPDFFirstPage(string fileName)
{
string text = null;
using (var pdfReader = new PdfReader(fileName))...
1787 просмотров
schedule
11.12.2022
Как передать длинную строку через child_process.spawn() в Node.js?
Я читаю текст в формате pdf из ведра s3, используя S3fs.readFile, и я хотел бы получить результат, преобразовать в строку и сразу же открыть порождающий дочерний процесс, вызывающий pdftotext, передавая строку:...
576 просмотров
schedule
30.06.2023
struct.error: для распаковки требуется строковый аргумент длиной 16
При обработке PDF-файла файла (2.pdf) с помощью pdfminer (pdf2txt.py) я получил следующую ошибку :
pdf2txt.py 2.pdf
Traceback (most recent call last):
File "/usr/local/bin/pdf2txt.py", line 115, in <module>
if __name__ ==...
5616 просмотров
schedule
30.07.2022
извлечь текст из pdf в php не работает для всех файлов PDF
Я извлекаю текст из файлов PDF. это код:
<?php
require("PdfToText.php");
$file = 'SamplePF' ;
$pdf = new PdfToText ( "$file.pdf" ) ;
echo ( $pdf -> Text ) ;
?>
Этот класс отлично работает для некоторых файлов PDF....
868 просмотров
schedule
29.05.2023
Как посчитать похожие слова из массива с помощью функции strpos в php?
Я использую xpdf для преобразования pdf в текст, а затем с помощью функции регулярного выражения ищу слова после двоеточия в pdf, а затем зацикливаю эти данные с помощью функции strpos php и сохраняю их в базе данных. У меня работает для отдельных...
121 просмотров
schedule
18.07.2022
Как идентифицировать и удалить мусорные символы?
У меня есть китайский текстовый файл, в котором много искаженного текста между хорошим китайским текстом (из преобразования PDF в TXT).
Как мне удалить искаженный текст, сохранив текст на китайском/английском языках?
Вот сокращенная версия файла
190 просмотров
schedule
22.04.2023
Запуск pdftotext x.pdf y.txt программно в Linux?
char *readFile(char *path, char *buffer) {
if(strcmp(getExtenstion(path), "pdf") == 0){
pid_t pid = fork();
if(pid == 0) {
execlp("pdftotext", path, "henok.txt");
}
wait(NULL);...
146 просмотров
schedule
15.12.2023