Мне нужно ввести изображение и координаты. Текст, присутствующий во входной координате, должен быть прочитан как вывод. Как это сделать с помощью node-tesseract?
Tesseract - Как извлечь текст из изображения для входных координат?
Ответы (2)
Вам нужно просмотреть файл .hocr, возвращенный Tesseract (сначала вы можете найти дополнительную информацию в Google hocr). .hocr включает в себя всю ограничительную рамку текста (x, y, ширина, высота, язык и т. д.). Затем вычислите все поля, расположенные внутри координат, которые вы получаете из ввода.
Ссылка: http://gamemath.com/2011/09/detecting-whether-two-boxes-overlap/
Обновление:
Я провел некоторые исследования для вас. Вот вам «лучший» (с наибольшим количеством звезд) репозиторий github на Javascript, который вы можете найти на Github.
https://github.com/search?utf8=✓&q=tesseract+language%3Ajavascript
и лучший из них — tesseract.js
с более чем 10000 звезд и все еще недавно коммиты
https://github.com/naptha/tesseract.js
часть, которую я выделил, это .hocr
(tesseract.js
назвал ее html
)
Я знаю, что это старый поток, однако у меня было такое же требование, я не смог найти решение, поэтому я изменил модуль и разместил его в Git:
https://github.com/desmondmorris/node-tesseract/issues/46