Генерация n-грамм для слов неанглийских языков

Я выполняю генерацию биграмм для слов чешского языка. Я могу генерировать биграммы с помощью Python. Проблема с неанглийскими символами в чешском языке.

Вход:

Республиканская стратегия защиты Обамы.

Выполнение Biggram, вывод

[['республики\xc3\xa1n', 'стратегии'], ['стратегии', 'за'], ['проти', 'зновозволен\xc3\xad'], ['зновопущен\xc3\xad' , 'Обами']]

Специальные буквы чешского языка преобразуются в биграммы как \xc3\xad. Какие изменения нужно внести в код, чтобы специальные буквы выводились правильно


person Lokesh Raju    schedule 09.12.2015    source источник


Ответы (1)


Данные верны, но при преобразовании списка в строку вывод готовится с использованием repr для элементов списка, а не str. Сравнивать:

>>> x = [['republikán']]
>>> print(x)
[['republik\xc3\xa1n']]
>>> print(x[0])
['republik\xc3\xa1n']
>>> print(x[0][0])
republikán
>>>
person chepner    schedule 09.12.2015
comment
Это отлично работает, но я хочу, чтобы он печатал все слова в списке, а не только первое слово. - person Lokesh Raju; 09.12.2015
comment
Возможность распечатать список предназначена для отладки, а не для окончательного вывода. Создайте нужную строку из элементов списка, а затем распечатайте ее. - person chepner; 09.12.2015