PHP — конвертировать PDF в текст (нет доступа к exec/shell_exec)

Дело:

  • Сервер не поддерживает exec/shell_exec (поэтому pdftotext исключен)
  • Другие библиотеки не принимают PDF. Pdftotext работает (проверено на файлах локально)

Вот некоторые выдержки из кода (PDF):


5 0 obj
>
stream
Gat$ugPXc?%"6H'p]ofd'_qs00UX27?3p0*8m>KOQL4]:u"*$$^'f*q*SGMee*e$5&=alj\@GV7YPq9pg!Lr0>Y2n'&lmd4Br?V9N
P:_",WI.kJ\#'cs>77M9eTkA;,t#f)aaGuNS-6=Wp*uBg,Ft9Tcj#aI]nD[C6&m@9m?m!p6=IBt=o_LGHh!q>f$C.jdOXbSP/796HV`_Y]Y
l)M(]FZ9Ld-J_mMRe2q(D>`V@G`NM]crn@_V?sGC@W9^bnrY$.mqeVN^YEcqK)blO~>
endstream
endobj

О создателе:

%PDF-1.4
1 0 obj
>
endobj

Я хотел бы получить несколько предложений о том, как преобразовать это в обычный текст в PHP без использования функций exec/shell_exec.

Спасибо.

(Другие решения, такие как http://webcheatsheet.com/php/reading_clean_text_from_pdf.php, не работали. , и я не мог заставить их хотя бы преобразовать этот код во что-то вроде ASCII-кода.)


person Simon    schedule 14.06.2012    source источник
comment
У вас установлен curl в PHP и/или вы можете устанавливать внешние HTTP-соединения? Если это так, рассмотрите возможность использования file_get_contents() или SOAP (и т. д.) для преобразования через внешний API. Я лично не знаю ни одного, но в сети обязательно есть такая вещь.   -  person halfer    schedule 15.06.2012


Ответы (1)


Вы не можете просто проанализировать этот поток, так как вам нужно затем декодировать данные, используя множество других данных в файле (например, кодировку шрифта). Вы действительно хотите использовать библиотеку для этого...

person mark stephens    schedule 15.06.2012