У меня есть процедура, которую я хочу автоматизировать, которая включает в себя получение серии таблиц из файла PDF. В настоящее время я могу сделать это, открыв файл в любом средстве просмотра (Adobe, Sumatra, okular и т. д.) и просто нажав Ctrl+A, Ctrl+C, Ctrl+V в блокноте, и он поддерживает каждую строку, выровненную с разумным достаточного формата, чтобы затем я мог просто запустить регулярное выражение, скопировать и вставить его в Excel для всего, что понадобится впоследствии.
Пытаясь сделать это с помощью python, я пробовал различные модули, PDFminer - основной, который работает с использованием например, этот пример. Но он возвращает данные в одном столбце. Другие варианты включают только получение его в виде html-таблицы, но в этом случае он добавляет дополнительную разделяющую среднюю таблицу, которая усложняет синтаксический анализ или даже иногда переключает столбцы между первой и второй страницами.
У меня есть временное решение, работающее на данный момент, но я беспокоюсь, что заново изобретаю колесо, когда мне, вероятно, просто не хватает основной опции в синтаксическом анализаторе или что мне нужно рассмотреть какой-то фундаментальный вариант того, как визуализатор PDF работает, чтобы решить эту проблему.
Есть идеи, как к этому подойти?
pdftotext -layout input.pdf output.txt
, см.: askubuntu.com/q/52040 - person Alex Bitek   schedule 01.01.2017