Я использую pdftotext
для извлечения простого содержимого из файлов PDF.
Но результат не имеет формата (например, абзацы, списки и т. д.). Как можно извлечь простой текст из PDF-файлов с помощью pdftotext
и получить результат, отформатированный в разметке?
На самом деле я пытаюсь это:
pdftotext -layout -enc UTF-8
есть ли другой способ сделать это?