Начало работы с Python OCR в Windows?

Я никогда раньше не использовал python и не знаю, с чего начать. Моя цель — взять данные изображения, числа и разноцветный фон, и надежно идентифицировать правильные символы. Я изучил инструменты, необходимые для этого, и нашел дистрибутив Anaconda python, который включал в себя все возможные пакеты, которые мне могут понадобиться для этого, а также tesseract-ocr и pytesser.

К сожалению, я не знаю, как начать. Я использую PyCharm Community IDE и просто пытаюсь следовать этому руководству: http://www.manejandodatos.es/2014/11/ocr-python-easy/, чтобы получить представление об OCR.

Это код, который я использую:

from PIL import Image
from pytesser import *

image_file = 'menu.jpg'
im = Image.open(image_file)
text = image_to_string(im)
text = image_file_to_string(image_file)
text = image_file_to_string(image_file, graceful_errors=True)
print "=====output=======\n"
print text

и я считаю, что дистрибутив Anaconda, который я использую, имеет PIL, но я получаю эту ошибку:

C:\Users\diego_000\Anaconda\python.exe C:/Users/diego_000/PycharmProjects/untitled/test.py
Traceback (most recent call last):
  File "C:/Users/diego_000/PycharmProjects/untitled/test.py", line 2, in <module>
    from pytesser import *
  File "C:\Users\diego_000\PycharmProjects\untitled\pytesser.py", line 6, in <module>
    import Image
ImportError: No module named Image

Process finished with exit code 1

Может кто-то указать мне верное направление?


person Ryan    schedule 28.06.2015    source источник
comment
Установить подушку. Используйте 1_   -  person Malik Brahimi    schedule 28.06.2015
comment
Вы можете объяснить это немного больше? У меня уже есть эта строка, так что мне просто установить Pillow? Или мне удалить следующую строку from pytesser import *?   -  person Ryan    schedule 28.06.2015


Ответы (1)


Документ, на который вы указываете, говорит использовать

from PIL import Image

за исключением того, что вы используете

import Image

и поэтому толкователь правильно говорит:

ImportError: No module named Image

Похоже, вы переставили строки

from PIL import Image
from pytesser import *

и этот pytesser имеет неправильно закодированную зависимость от PIL. но я не могу быть уверен в коде, который вы предоставили.

person msw    schedule 28.06.2015
comment
Я заменил строку import image в pytesser.py на from PIL import Image, и мой код компилируется, но я не получаю никакого вывода, это должно означать, что в коде есть какие-то недостатки? Я заменил исходное изображение .tiff его формой jpg, не могли бы вы узнать, может ли это вообще повлиять на это? - person Ryan; 28.06.2015
comment
Это вполне может повлиять на это. TIFF — это несжатый файл, в котором края букв будут чище, чем в сжатом JPG. - person msw; 28.06.2015
comment
Все работает нормально при использовании включенного в pytesser файла fonts_test.png, но возникает проблема всякий раз, когда я использую любое другое изображение. Я предполагаю, что это просто ограничение pytesser? - person Ryan; 28.06.2015