Как я могу прочитать данные из файла документа Microsoft Word 97 -2003 в коротком файле «.doc». Я пробовал различные методы для чтения данных.
data = contents.decode('ascii')
Ошибка: UnicodeDecodeError: кодек ascii не может декодировать байт 0xd0 в позиции 0: порядковый номер не в диапазоне (128)
with open(path, 'r', encoding="cp1254") as f:
data = f.read()
print(data)
Ошибка: кодек 'charmap' не может декодировать байт 0x90 в позиции 540: сопоставление символов с
with open(path, 'r', encoding="UTF8") as f:
data = f.read()
print(data)
Ошибка: кодек utf-8 не может декодировать байт 0xd0 в позиции 0: неверный байт продолжения
word = win32com.client.Dispatch("Word.Application")
wb = word.Documents.Open(path)
doc = word.ActiveDocument
Ошибка: К сожалению, мы не смогли найти ваш файл. Был ли он перемещен, переименован или удален?
soup = bs(open(path).read())
[s.extract() for s in soup(['style', 'script'])]
tmpText = soup.get_text()
text = "".join("".join(tmpText.split('\t')).split('\n')).encode('Windows-1254').strip()
print(text)
Кодек 'charmap' с ошибкой не может декодировать байт 0x90 в позиции 540: сопоставление символов с
Моя кодировка «Windows-1254». Вот как я получил формат кодировки.
_encoding = chardet.detect(data).get('encoding')
@OlvinRoght Я попробовал несколько их решений, но не нашел удачи, и я понятия не имею об антислове ... Как я могу это использовать?