Советы по оптимизации вывода Python / PHP Tesseract

У меня есть скрипт Python, который сканирует квитанцию, а затем выводит ее в отсканированный файл. В новом файле используйте tesseract imagefile outputfile. Я могу получить хорошо читаемый текст, но синтаксический анализ показывает, как показано ниже. Есть ли способ выровнять купленный товар рядом с ценой, используя tesseract? Я предпочитаю делать это на PHP или Python.

WHELE
POODS .4
M

Merchant Name and Address

365 BHCON LS

365 BHCON LS

365 BHCON LS

365 BHCON LS
BROTH CHIC

FLOUR HLHONO

CHKN BRST BNLSS SK
HEAVY CREHH

BHLSHC REOUCT

BEEF GRND 85/1§«
JUICE COF CHSHEU C

i . DOCS PINT ORGRNIC

NP 4.99
NP 4.99
NP 4.99
NP 4.99
NP 2.19
NRuqﬂ1.99
NP 18.80
NP 3.39
NP §.49
NP ’.04
NP ‘f:,99
NP 14.49

HNY HLMONO BUTTER NP 9.99

**** TEX .00 BRL

techwestcoastsfosea 19.12.2015 источник

comment

Вы не могли бы фото сюда поставить? Это может улучшить чтение, используя OpenCV для очистки изображения. - macabeus 20.12.2015

Ответы (1)

arrow_upward
1
arrow_downward

Попробуйте использовать аргумент -psm. Дополнительные идеи см. на вики[1].

[1] https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality< /а>

user898678 20.12.2015

Вопросы по теме

Как правильно переопределить недоступный HTML-контент с помощью CSS?
Emacs тормозит и создает 0-байтовые файлы в рабочем каталоге
Скрытое переполнение элементов с переменной высотой?
отправить электронное письмо в качестве параметра в URL-адресе в ошибке Rails
Ханойские башни с использованием списков Prolog
Хранение подписей в кодировке base64 в базе данных
Редактирование CSV-файла — удаление всей строки похожих значений на основе условия VIA Powershell
Как начать новый подсчет, когда значение категориальной переменной изменилось в R
Настройте параметры прокси-сервера HTTP в инструменте командной строки Android
Разбор кода JavaScript в модуле Node.js
Почему в С++ возврат указателя частной переменной разных объектов приводит к ошибке сегментации?
Рассчитать минимальное, максимальное и среднее значение в столбце данных
Как применить несколько фильтров в таблице данных угловых материалов?
Конфигурация конкретного узла в JBoss Clustering
Подчеркивания не считываются компонентом сценария в службах интеграции Microsoft
как настроить struts2 с помощью tomcat и apache с mod_jk?
Как использовать REST API RSA Archer для получения отчета?
JMH: не учитывать время внутреннего метода
Время жизни временного объекта, связанного с константной ссылкой (цепочка методов)
фильтр сканирования по подстроке