Tesseract - Как извлечь текст из изображения для входных координат?

Мне нужно ввести изображение и координаты. Текст, присутствующий во входной координате, должен быть прочитан как вывод. Как это сделать с помощью node-tesseract?


person Amy    schedule 19.12.2016    source источник


Ответы (2)


Вам нужно просмотреть файл .hocr, возвращенный Tesseract (сначала вы можете найти дополнительную информацию в Google hocr). .hocr включает в себя всю ограничительную рамку текста (x, y, ширина, высота, язык и т. д.). Затем вычислите все поля, расположенные внутри координат, которые вы получаете из ввода.

Ссылка: http://gamemath.com/2011/09/detecting-whether-two-boxes-overlap/

Обновление:

Я провел некоторые исследования для вас. Вот вам «лучший» (с наибольшим количеством звезд) репозиторий github на Javascript, который вы можете найти на Github.

https://github.com/search?utf8=✓&q=tesseract+language%3Ajavascript

и лучший из них — tesseract.js с более чем 10000 звезд и все еще недавно коммиты

https://github.com/naptha/tesseract.js

введите здесь описание изображения

часть, которую я выделил, это .hocr (tesseract.js назвал ее html)

person Pang Ho Ming    schedule 19.12.2016
comment
Присутствует ли файл .hocr, когда мы также используем node-tesseract? (пакет получен из npm) Как получить к нему доступ? - person Amy; 19.12.2016
comment
обновил свой ответ, я не пишу nodejs и не использую node-tesseract, поэтому не могу дать вам ответ на этот вопрос. - person Pang Ho Ming; 19.12.2016

Я знаю, что это старый поток, однако у меня было такое же требование, я не смог найти решение, поэтому я изменил модуль и разместил его в Git:

https://github.com/desmondmorris/node-tesseract/issues/46

person SPlatten    schedule 22.05.2017