Советы по оптимизации вывода Python / PHP Tesseract

У меня есть скрипт Python, который сканирует квитанцию, а затем выводит ее в отсканированный файл. В новом файле используйте tesseract imagefile outputfile. Я могу получить хорошо читаемый текст, но синтаксический анализ показывает, как показано ниже. Есть ли способ выровнять купленный товар рядом с ценой, используя tesseract? Я предпочитаю делать это на PHP или Python.

WHELE
POODS .4
M

Merchant Name and Address

365 BHCON LS

365 BHCON LS

365 BHCON LS

365 BHCON LS
BROTH CHIC

FLOUR HLHONO

CHKN BRST BNLSS SK
HEAVY CREHH

BHLSHC REOUCT

BEEF GRND 85/1§«
JUICE COF CHSHEU C

i . DOCS PINT ORGRNIC

NP 4.99
NP 4.99
NP 4.99
NP 4.99
NP 2.19
NRuqfl1.99
NP 18.80
NP 3.39
NP §.49
NP ’.04
NP ‘f:,99
NP 14.49

HNY HLMONO BUTTER NP 9.99

**** TEX .00 BRL

person techwestcoastsfosea    schedule 19.12.2015    source источник
comment
Вы не могли бы фото сюда поставить? Это может улучшить чтение, используя OpenCV для очистки изображения.   -  person macabeus    schedule 20.12.2015


Ответы (1)