Как преобразовать документ Microsoft Word 97-2003 «.doc» в файл .pdf в python?

Как я могу прочитать данные из файла документа Microsoft Word 97 -2003 в коротком файле «.doc». Я пробовал различные методы для чтения данных.

data = contents.decode('ascii')

Ошибка: UnicodeDecodeError: кодек ascii не может декодировать байт 0xd0 в позиции 0: порядковый номер не в диапазоне (128)

with open(path, 'r', encoding="cp1254") as f:
        data = f.read()
        print(data)

Ошибка: кодек 'charmap' не может декодировать байт 0x90 в позиции 540: сопоставление символов с

with open(path, 'r', encoding="UTF8") as f:
    data = f.read()
    print(data)     

Ошибка: кодек utf-8 не может декодировать байт 0xd0 в позиции 0: неверный байт продолжения

word = win32com.client.Dispatch("Word.Application")
wb = word.Documents.Open(path)
doc = word.ActiveDocument

Ошибка: К сожалению, мы не смогли найти ваш файл. Был ли он перемещен, переименован или удален?

soup = bs(open(path).read())
    [s.extract() for s in soup(['style', 'script'])]
    tmpText = soup.get_text()
    text = "".join("".join(tmpText.split('\t')).split('\n')).encode('Windows-1254').strip()
    print(text)

Кодек 'charmap' с ошибкой не может декодировать байт 0x90 в позиции 540: сопоставление символов с

Моя кодировка «Windows-1254». Вот как я получил формат кодировки.

_encoding = chardet.detect(data).get('encoding')

@OlvinRoght Я попробовал несколько их решений, но не нашел удачи, и я понятия не имею об антислове ... Как я могу это использовать?


person Mohammed zuhair    schedule 23.10.2020    source источник
comment
Выход 00\x00\xf8)\x00\x00\x00\x00\x00\x00\xf8)\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00 \xff\xff\xff\xff\x00\x00\x00\x00\xff\xff\xff\xff\x00\x00\x00\x00\xff\xff\xff\xff\x00\x00\x00\x00\x00 \x00\x00\x00\x00\x00\x00\x00\xff\xff\xff\xff\x00\x00\x00\x00\xff\xff\xff\xff\x00\x00\x00\x00\xff\xff \xff\xff\x00\x00\x00\x00\xff\xff\xff\xff\x00\x00\x00\x00\xff\xff\xff\xff\x00\x00\x00\x00\xff\xff\xff \xff\x00\x00\x00\x00\xff\xff\xff\xff\x00\x00\x00\x00\xff\xff\xff\xff\x00\x00\x00\x00\xff\xff\xff\xff \x00\x00\x00\x00\xff\xff\xff\xff\x00\x00\x00\x00\xff\xff\xff\xff\x00\x00\x00\x00\xff\xff\xff\xff\x00 \x00\x00\x00\xff\xff\xff\xff\x00\x00\x00\x00\xff\xff\xff\xff\x00\x00\x00\x00A\x9a\x00\x00\x00\x00\x00 \x00\xf8)\x00\x00\x00\x00\x00\x00\xf8)\x00\x00\x00\x00\x00\x00\xf8)\x00\x00\x00\x00\x00\x00\xf8) \x00\x00\x00\x00\x00\x00\xf8)\x00\x00\x00\x00\x00\x00\xf8)\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00 \x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00 \ х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\ x00\x00\xf8)\x00\x00\x00\x00\x00\x00\xf8)\x00\x00\x00\x00\x00\x00\xf8)\x00\x00\x00\x00\x00\x00\x82 \x10\x00\x00X\x0c\x00\x00\xda\x1c\x00\x00:\x01\x00\x00\x05\x00\x12\x01\x00\x00\t\x04\x00\x00\x00\ х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\ х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\ х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\х00\ x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00 Меня зовут рахаф работаю для хороших \x07\x07Skill Set\x07HTML 5, CSS 3, JQuery, JavaScript, адаптивных веб-сайтов, Angular Js\x07\x07Operating System\x07Windows, C\x07\x07Tools\x07Adobe Photoshop CS5, Notepad++,Adobe Dreamweaver, Team Site, IBM Clear Case и Clear Quest\x07\x07\x07\x07\x07\r\r\r\r\t\r\r\r\rBra в Tree Conultant HR Private Limited- \rКлиент: L&T \r\rПрофиль: инженер-программист \rПолная занятость: с 12 декабря 2018 г. по 21 января 2020 г.\r\rРабота для клиента Huawei в качестве инженера-программиста через xf2Y\xc8\x00 \x16hi\xad\x000J\x11\x00CJ\x14\x00OJ\x02\x00QJ\x02\x00^J\x02\x00aJ\x14\x00\x00/\x02\x08\x81\x03j\x86\ x00\x00\x00\x06\x08\x01\x15h\xf2Y\xc8\x00\x16hi\xad\x00CJ\x14\x00OJ\x02\x00QJ\x02\x00U\x08\x01^J\x02 \x00aJ\x14\x00 \x15h\xf2Y\xc8\x00\x16hi\xad\x00CJ\x14\x00OJ\x02\x00QJ\x02\x00^J\x02\x00aJ\x14\x00\x00)\ x03j\x00\x00\x00\x00\x15h\xf2Y\xc8\x00\x16hi\xad\x00CJ\x14\x00OJ\x02\x00QJ\x02\x00U\x08\x01^J\x02\x00aJ \x14\x00\x06\x16h%f\x06\x00\x00 \x15h\xf2Y\xc8\x00\x16h\xaf? \x00CJ\x14\x00OJ\x02\x00QJ\x02\x00^J\x02\x00aJ\x14\x00\x00#\x15h\xf2Y\xc8\x00\x16h8\x11J\x005\x08\x81CJ\x14\x00OJ\ x02\x00QJ\x02\x00^J\x02\x00aJ\x14\x00#\x15h\xf2Y\xc8\x00\x16h\xbc%\xea\x005\x08\x81CJ\x14\x00OJ\x02\x00QJ\x02\ x00^J\x02\x00aJ\x14\x00#\x15h\xf2Y\xc8\x00\x16h%4\xa6\x005\x08\x81CJ\x14\x00OJ\x02\x00QJ\x02\x00^J\x02\x00aJ \x14\x00\x15h\xf2Y\xc8\x00\x16h8\x11J\x00CJ\x14\x00OJ\x02\x00QJ\x02\x00^J\x02\x00aJ\x14\x00\x00   -  person Mohammed zuhair    schedule 23.10.2020