Я использую Tess4J (оболочка JNA вокруг tesseract) и пытаюсь вызвать tess.doOCR(myFile)
для текста OCR из одностраничного PDF.
У меня установлен GhostScript (используя yum install ghostscript
), gs -h
работает корректно.
Мой сервер приложений использует 64-bit JVM
, у меня есть gsdll64.dll
, а 64-разрядная библиотека tesseract liblept168.dll
и libtesseract302.dll
в пути к классам.
Когда вызывается tess.doOCR(myFile)
, это регистрируется:
GPL Ghostscript 8.70 (2014-09-22)
Copyright (C) 2014 Artifex Software, Inc. All rights reserved.
This software comes with NO WARRANTY: see the file PUBLIC for details.
Processing pages 1 through 1.
Page 1
Но тогда это просто останавливается там. Дальше программа не идет.
ОБНОВЛЕНИЕ --
Похоже, настоящая проблема связана с этой ошибкой:
java.lang.UnsatisfiedLinkError: Unable to load library 'tesseract': Native library (linux-x86-64/libtesseract.so) not found in resource path
После долгих поисков я не вижу удобного места, чтобы найти этот файл libtesseract.so
, и я не уверен, что нужно, чтобы загрузить его на мой сервер приложений Linux. Я читал, что, возможно, мне нужно загрузить какую-то среду выполнения C++, но я не вижу для этого загрузки Linux. Любые советы будут высоко ценится.
Или это как-то связано с символической ссылкой?