Получить позицию текста с помощью tesseract 2.04 и Java

Я выполняю распознавание текста с помощью Tesseract 2.04 на некоторых изображениях, и теперь мне нужно получить точное положение текста. Но эта версия не возвращает эту информацию.

Мне нужно это для создания файла PDF с возможностью поиска. Я уже научился штамповать текст в нижнем слое PDF-файла, но мне нужна позиция для штампа этого текста. Моя первая идея - выполнить распознавание в pdf, получить текст и положение текста, чтобы поставить печать в pdf с помощью iText api.


person Raduan Santos    schedule 05.12.2011    source источник
comment
Вы можете взглянуть на этот вопрос: stackoverflow.com/questions/8263954/   -  person Nikolay    schedule 06.12.2011
comment
Спасибо за ваш комментарий.   -  person Raduan Santos    schedule 06.12.2011


Ответы (1)


Внутри iText мы также изучили OCR. И это возможно (используя Tesseract).

рабочий процесс:

  1. извлечь все изображения из pdf с помощью iText
  2. извлеките текст (и координаты, шрифт и т. д.), используя Tesseract
  3. применять преобразования координат (поскольку система координат tesseract и система координат iText не совпадают)
  4. добавить слой в PDF (canvas.beginLayer)
  5. нарисовать весь текст в этом слое в правильном положении

Есть много других оптимизаций, которые вы могли бы сделать. Краткий список предложений:

  • правильная базовая линия
  • правильный шрифт
  • исправить орфографические ошибки
  • оценить цвет
  • оценить цвет фона

Это непростая задача. Но конечно возможно.

person Joris Schellekens    schedule 18.07.2017