Проблема с установкой пакета tesseract-ocr — «сбой компиляции с кодом ошибки 1 в /tmp/pip_build_root/tesseract-ocr»

Попытка установить пакет tesseract-ocr для использования с pytesseract столкнулась со странной проблемой. Установка всего остального с помощью pip сработала, но когда я попробовал sudo pip install tesseract-ocr в соответствии с инструкциями здесь, я получаю следующие ошибки :

Command /usr/bin/python -c "import setuptools, tokenize;__file__='/tmp/pip_build_root/tesseract-ocr/setup.py';exec(compile(getattr(tokenize, 'open', open)(__file__).read().replace('\r\n', '\n'), __file__, 'exec'))" install --record /tmp/pip-zsaPkE-record/install-record.txt --single-version-externally-managed --compile failed with error code 1 in /tmp/pip_build_root/tesseract-ocr
Traceback (most recent call last):
  File "/usr/bin/pip", line 9, in <module>
    load_entry_point('pip==1.5.4', 'console_scripts', 'pip')()
  File "/usr/lib/python2.7/dist-packages/pip/__init__.py", line 235, in main
    return command.main(cmd_args)
  File "/usr/lib/python2.7/dist-packages/pip/basecommand.py", line 161, in main
    text = '\n'.join(complete_log)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 42: ordinal not in range(128)

У меня такое ощущение, что трассировка вызывает ошибку UnicodeDecodeError. У кого-нибудь есть идеи, как это решить?


person n1c9    schedule 21.11.2015    source источник


Ответы (1)


В предоставленной ссылке упоминается только использование Pip для установки pytesseract, а не Tesseract-OCR.

Как уже упоминалось, вам также понадобится библиотека изображений Python (PIL), если она не установлена ​​в вашей системе, вы можете использовать Pillow с помощью sudo pip install pillow.

Tesseract-OCR не устанавливается вместе с Pip с использованием sudo pip install tesseract-ocr, так как это не модуль Python, такой как pytesseract. Из того, что я вижу, Tesseract-OCR написан в основном на C++.

Приведенная ссылка http://code.google.com/p/tesseract-ocr/ больше не размещает Tesseract-OCR, поскольку проект был перемещен на https://github.com/tesseract-ocr/tesseract.

Инструкции по установке можно найти на https://github.com/tesseract-ocr/tesseract/wiki< /а>.

Для Linux используйте sudo apt-get install tesseract-ocr или sudo apt-get install tesseract-ocr-all для установки всех языков.

Для Mac используйте brew install tesseract или brew install tesseract --all-languages, чтобы установить все языки. Вам понадобится установленный Homebrew, его можно найти по адресу https://brew.sh.

Для Windows установщик можно найти на https://github.com/tesseract-ocr/tesseract/wiki/Downloads/. Текущая стабильная версия должна включать все языки.

person Eddie    schedule 14.03.2017