Tesseract 4.5 возвращает несколько результатов для одной и той же структуры изображения

Привет всем, у меня проблема с tess4j с Arabic.trainddata, проблема в том, что когда я получаю результат два раза, результаты были разными, как это первый вывод:

| رقم القيد ? : 139\n +

18/02/2020 : ?التاريخ\n +

СИРИЯ H.O : ?الفرع?\n +

второй вывод:

رقم القيد ? : 439\n +

Дата: 07.08.2020\n +

الفرع : ?SYRIA H.O?\n +

последний необработанный файл является обратным, и он может быть для другого необработанного в другом выводе

пожалуйста, мне нужно решение, чтобы заставить ocr всегда начинать чтение с RTL или всегда давать мне один и тот же результат

и спасибо за все :)


person Montazar Hamoud    schedule 14.07.2020    source источник


Ответы (1)


Tesseract изучает или адаптирует свои результаты в ходе последовательных запусков. Вам нужно будет очистить его адаптивный классификатор или кеш (с помощью метода ClearAdaptiveClassifier, ClearPersistentCache​ или Clear), чтобы получить тот же результат при последующих запусках.

person nguyenq    schedule 25.07.2020
comment
спасибо за ваш ответ, но не могли бы вы уточнить метод ClearPersistentCache, это переменная Tess ?? и как извлечь выгоду из того, что Tesseract учится или адаптирует свои результаты при последовательных запусках ?? :) - person Montazar Hamoud; 28.07.2020
comment
Документация: tess4j.sourceforge.net/docs/index.html - person nguyenq; 28.07.2020
comment
Спасибо за ответ и прошу прощения за задержку, но по состоянию здоровья - person Montazar Hamoud; 15.08.2020