Получить позицию текста с помощью tesseract 2.04 и Java

Я выполняю распознавание текста с помощью Tesseract 2.04 на некоторых изображениях, и теперь мне нужно получить точное положение текста. Но эта версия не возвращает эту информацию.

Мне нужно это для создания файла PDF с возможностью поиска. Я уже научился штамповать текст в нижнем слое PDF-файла, но мне нужна позиция для штампа этого текста. Моя первая идея - выполнить распознавание в pdf, получить текст и положение текста, чтобы поставить печать в pdf с помощью iText api.

Raduan Santos 05.12.2011 источник

comment

Вы можете взглянуть на этот вопрос: stackoverflow.com/questions/8263954/ - Nikolay 06.12.2011

comment

Спасибо за ваш комментарий. - Raduan Santos 06.12.2011

Ответы (1)

arrow_upward
6
arrow_downward

Внутри iText мы также изучили OCR. И это возможно (используя Tesseract).

рабочий процесс:

извлечь все изображения из pdf с помощью iText
извлеките текст (и координаты, шрифт и т. д.), используя Tesseract
применять преобразования координат (поскольку система координат tesseract и система координат iText не совпадают)
добавить слой в PDF (canvas.beginLayer)
нарисовать весь текст в этом слое в правильном положении

Есть много других оптимизаций, которые вы могли бы сделать. Краткий список предложений:

правильная базовая линия
правильный шрифт
исправить орфографические ошибки
оценить цвет
оценить цвет фона

Это непростая задача. Но конечно возможно.

Joris Schellekens 18.07.2017

Получить позицию текста с помощью tesseract 2.04 и Java

Ответы (1)

Вопросы по теме