извлечь текст из pdf в php не работает для всех файлов PDF

Я извлекаю текст из файлов PDF. это код:

<?php

require("PdfToText.php");

$file   =  'SamplePF' ;
$pdf    =  new PdfToText ( "$file.pdf" ) ;
echo ( $pdf -> Text ) ;

?>

Этот класс отлично работает для некоторых файлов PDF. Проблема с этим классом:

для некоторых файлов PDF он берет текст со случайной страницы/строки не в последовательности страниц.
для некоторых файлов PDF он не показывает никакого результата.
для некоторых файлов PDF он извлекает только одну или две строки.

Пожалуйста, предложите какое-нибудь решение. Спасибо!

Harinarayan 19.11.2016 источник

comment

Некоторые файлы PDF устарели и больше не используют ту же структуру. Если у вас есть проблемы с этим, свяжитесь с Adobe, чтобы узнать, почему они не опубликовали общедоступный API для этого. - Xorifelse 19.11.2016

Ответы (1)

arrow_upward
0
arrow_downward

Я не уверен, что это может быть именно та проблема, из-за которой вы не можете извлечь, но я также столкнулся с чем-то подобным при извлечении данных из pdf. Иногда файлы PDF блокируются паролями владельца, что накладывает определенные ограничения на документ и не позволяет изменять, копировать или извлекать содержимое и т. д., чтобы защитить его авторские права. Перейдите по этой ссылке, чтобы получить дополнительную информацию о паролях владельцев.

Таким образом, вы можете сначала попытаться удалить пароль владельца, а затем попытаться извлечь такие PDF-файлы. Для удаления паролей владельцев есть несколько онлайн-инструментов, вы можете выбрать тот, который подходит вам лучше всего.

Jayant Pande 02.12.2016

извлечь текст из pdf в php не работает для всех файлов PDF

Ответы (1)

Вопросы по теме