Неточное преобразование pdf в текст

Я пробовал почти все конвертеры pdf в текст, доступные в Linux, но некоторые части текста были повреждены/неточны. Например, одни символы заменены другими, некоторые слова отсутствуют в тексте, который присутствует в pdf. Для некоторых слов преобразованный текст содержит точки с запятой и т. д.

Я также попробовал aspell, чтобы исправить слова, но aspell ничего не говорит о некоторых словах.

ПРИМЕЧАНИЕ. PDF-файл содержит текст на шведском языке.

Итак, есть ли решение исправить эту неточность в преобразовании pdf в текст?


person MA1    schedule 22.07.2013    source источник


Ответы (1)


Нет. Я думаю, что нет рабочего решения для всех файлов PDF, поскольку фактический текст, лежащий в основе отображаемого визуального текста, может храниться в различных вариантах.

Например, когда LaTeX создает PDF-файлы, это зависит от нескольких параметров конфигурации, от того, как внедряются некоторые не-ascii-символы. Иногда я получал :o вместо ö, иногда o:, а иногда символ был встроен напрямую. Однако каждый из этих вариантов отображается как ö.

Если вы скопируете и вставите текст с помощью своей любимой программы просмотра PDF-файлов или попытаетесь найти поврежденное слово, вы, возможно, увидите те же эффекты.

Чтобы обойти эти проблемы, можно использовать программное обеспечение для распознавания текста - со всеми недостатками распознавания этих инструментов.

person urzeit    schedule 22.07.2013