Я пытаюсь декодировать u'' в python, поэтому я могу распечатать его без предупреждений об ошибках. Другими словами, мне нужно преобразовать глупые символы Microsoft Windows 1252 в настоящий юникод.
Источник html, содержащий необычные ошибки, взят отсюда http://members.lovingfromadistance.com/showthread.php?12338-HAVING-SECOND-THOUGHTS
Прочитайте о u'' и u'', нажав здесь http://www.fileformat.info/info/unicode/char/f04a/index.htm
один пример выглядит так:
"Oh god please some advice ":
Out[408]: Господи, пожалуйста, совет '
Дан такой поток в качестве примера для теста:
thread = u'who are you \uf04a Why you are so harsh to her \uf04c'
thread.decode('utf8')
print u'\uf04a'
print u'\uf04a'.decode('utf8') # error!!!
Кодек 'charmap' не может кодировать символ u'' в позиции 1526: сопоставление символов с неопределенным
С помощью двух сценариев Python я успешно преобразовал u'\x92', но я все еще застрял с u''. Какие-либо предложения?
Ссылки
https://github.com/AnthonyBRoberts/NNS/blob/master/tools/killgremlins.py
Обработка нестандартного американского английского Символы и символы в CSV с использованием Python
Решение:
Согласно комментариям ниже: я заменяю этот набор символов знаком вопроса ('?')
thread = u'who are you \uf04a Why you are so harsh to her \uf04c'
thread = thread.replace(u'\uf04a', '?')
thread = thread.replace(u'\uf04c', '?')
Надеюсь, это поможет другим новичкам.