Как научить tesseract распознавать небольшие числа при низком DPI?

Я получаю данные из видео, поэтому у меня нет возможности повторно отсканировать изображение, но я могу масштабировать их, если это необходимо.

У меня есть только ограниченное количество символов, 1234567890:, но я не могу контролировать разрешение исходного изображения или шрифт.

Я пытался обучить tesseract, но без видимого эффекта, тестовый проект находится по адресу https://github.com/ssbarnea/tesseract-sample, но текущие результаты очень плохие.

Пример захвата исходного изображения:

введите здесь описание изображения

Пример постобработки изображения для OCR:

введите здесь описание изображения

Как я могу улучшить процесс OCR в этом случае?


person sorin    schedule 24.11.2011    source источник


Ответы (1)


Вы можете попробовать добавить дополнительное пространство по краям изображения, иногда это помогает для тессеракта. Однако механизмы OCR с открытым исходным кодом очень чувствительны к DPI исходного изображения.

person Nikolay    schedule 25.11.2011
comment
Спасибо, Николай. На самом деле я пробовал tesseract, потому что в данный момент мы используем стороннее решение, основанное на Abbyy, но они не проводят для него обучение, и в этом случае обучение будет обязательным для получения хороших результатов - для счетчика мне нужно 100% точность, что должно быть возможно, учитывая, что есть только 11 возможных символов. - person sorin; 25.11.2011
comment
Я только что попытался распознать ваше изображение в ABBYY FineReader 10, и это сработало со 100% точностью. Может быть, это стороннее решение основано на старых версиях продуктов ABBYY? Можете ли вы сказать мне, что именно вы используете? - person Nikolay; 25.11.2011
comment
Да, работает в 90% случаев, и при ручном ремонте вывода я могу получить точность до 98%. Тем не менее мне нужно 100% решение. - person sorin; 25.11.2011
comment
@sorin, попробуй посмотреть, есть ли это повышает точность для tesseract - person Janis Veinbergs; 10.02.2012
comment
@nikolay Я решил проблему, внедрив собственное распознавание символов, которое использует сравнение изображений с помощью scipy. Он смог получить 100% точность цифр. - person sorin; 11.02.2012
comment
@sorin Как вы научились распознавать текст? - person GhostDede; 07.10.2019