Tesseract - Как извлечь текст из изображения для входных координат?

Мне нужно ввести изображение и координаты. Текст, присутствующий во входной координате, должен быть прочитан как вывод. Как это сделать с помощью node-tesseract?

Amy 19.12.2016 источник

Ответы (2)

arrow_upward
2
arrow_downward

Вам нужно просмотреть файл .hocr, возвращенный Tesseract (сначала вы можете найти дополнительную информацию в Google hocr). .hocr включает в себя всю ограничительную рамку текста (x, y, ширина, высота, язык и т. д.). Затем вычислите все поля, расположенные внутри координат, которые вы получаете из ввода.

Ссылка: http://gamemath.com/2011/09/detecting-whether-two-boxes-overlap/

Обновление:

Я провел некоторые исследования для вас. Вот вам «лучший» (с наибольшим количеством звезд) репозиторий github на Javascript, который вы можете найти на Github.

https://github.com/search?utf8=✓&q=tesseract+language%3Ajavascript

и лучший из них — tesseract.js с более чем 10000 звезд и все еще недавно коммиты

https://github.com/naptha/tesseract.js

часть, которую я выделил, это .hocr (tesseract.js назвал ее html)

Pang Ho Ming 19.12.2016

comment

Присутствует ли файл .hocr, когда мы также используем node-tesseract? (пакет получен из npm) Как получить к нему доступ? - Amy; 19.12.2016

comment

обновил свой ответ, я не пишу nodejs и не использую node-tesseract, поэтому не могу дать вам ответ на этот вопрос. - Pang Ho Ming; 19.12.2016

arrow_upward
0
arrow_downward

Я знаю, что это старый поток, однако у меня было такое же требование, я не смог найти решение, поэтому я изменил модуль и разместил его в Git:

https://github.com/desmondmorris/node-tesseract/issues/46

SPlatten 22.05.2017

Tesseract - Как извлечь текст из изображения для входных координат?

Ответы (2)

Вопросы по теме