Обход предварительной обработки Tesseract

Я запускаю серию OCR для изображений, используя tess4j в качестве оболочки для tesseract из JAVA. Процесс распознавания по-прежнему занимает значительное время (иногда даже 5 секунд), и я пытаюсь его ускорить.

Я делаю свою собственную предварительную обработку и бинаризацию изображения, и tesseract не нужно выполнять бинаризацию otsu.

Я прочитал учебник для IOS, который позволяет пропустить часть графической обработки, но я ничего не могу найти, используя tess4j.

Туриал здесь: https://github.com/gali8/Tesseract-OCR-iOS/wiki/Tips-for-Improving-OCR-Results -
"... если вы уже выполнили собственную предварительную обработку/пороговое [... ] вы, вероятно, захотите обойти внутренний шаг порогового значения Tesseract».

Кто-нибудь знает, как я могу использовать tess4j (из JAVA) таким образом, чтобы пропустить бинаризацию otsu?


person user3452075    schedule 20.10.2015    source источник
comment
есть новости по этому поводу?   -  person Entertain    schedule 27.09.2018


Ответы (1)


Проверьте список параметров tesseract-ocr для любых настроек. применимый. Но я читал, что если вы отправите бинарное изображение, Tesseract пропустит пороговое значение для изображения (источник).

person nguyenq    schedule 21.10.2015
comment
Я тестировал раскрашенное изображение и бинарную версию, и разницы во времени не было. Я отправляю изображения в формате PNG, знаете ли вы, должен ли я установить монохромный атрибут в изображении? - person user3452075; 21.10.2015
comment
thresholder проверяет разрядность изображения / 8 == 0, чтобы определить, делать это или нет. Поэтому убедитесь, что ваше изображение имеет 1bpp. - person nguyenq; 22.10.2015