извлечь текст из pdf в php не работает для всех файлов PDF

Я извлекаю текст из файлов PDF. это код:

<?php

require("PdfToText.php");

$file   =  'SamplePF' ;
$pdf    =  new PdfToText ( "$file.pdf" ) ;
echo ( $pdf -> Text ) ;

?>

Этот класс отлично работает для некоторых файлов PDF. Проблема с этим классом:

  1. для некоторых файлов PDF он берет текст со случайной страницы/строки не в последовательности страниц.
  2. для некоторых файлов PDF он не показывает никакого результата.
  3. для некоторых файлов PDF он извлекает только одну или две строки.

Пожалуйста, предложите какое-нибудь решение. Спасибо!


person Harinarayan    schedule 19.11.2016    source источник
comment
Некоторые файлы PDF устарели и больше не используют ту же структуру. Если у вас есть проблемы с этим, свяжитесь с Adobe, чтобы узнать, почему они не опубликовали общедоступный API для этого.   -  person Xorifelse    schedule 19.11.2016


Ответы (1)


Я не уверен, что это может быть именно та проблема, из-за которой вы не можете извлечь, но я также столкнулся с чем-то подобным при извлечении данных из pdf. Иногда файлы PDF блокируются паролями владельца, что накладывает определенные ограничения на документ и не позволяет изменять, копировать или извлекать содержимое и т. д., чтобы защитить его авторские права. Перейдите по этой ссылке, чтобы получить дополнительную информацию о паролях владельцев.

Таким образом, вы можете сначала попытаться удалить пароль владельца, а затем попытаться извлечь такие PDF-файлы. Для удаления паролей владельцев есть несколько онлайн-инструментов, вы можете выбрать тот, который подходит вам лучше всего.

person Jayant Pande    schedule 02.12.2016