Генерация n-грамм для слов неанглийских языков

Я выполняю генерацию биграмм для слов чешского языка. Я могу генерировать биграммы с помощью Python. Проблема с неанглийскими символами в чешском языке.

Вход:

Республиканская стратегия защиты Обамы.

Выполнение Biggram, вывод

[['республики\xc3\xa1n', 'стратегии'], ['стратегии', 'за'], ['проти', 'зновозволен\xc3\xad'], ['зновопущен\xc3\xad' , 'Обами']]

Специальные буквы чешского языка преобразуются в биграммы как \xc3\xad. Какие изменения нужно внести в код, чтобы специальные буквы выводились правильно

Lokesh Raju 09.12.2015 источник

Ответы (1)

arrow_upward
0
arrow_downward

Данные верны, но при преобразовании списка в строку вывод готовится с использованием repr для элементов списка, а не str. Сравнивать:

>>> x = [['republikán']]
>>> print(x)
[['republik\xc3\xa1n']]
>>> print(x[0])
['republik\xc3\xa1n']
>>> print(x[0][0])
republikán
>>>

chepner 09.12.2015

comment

Это отлично работает, но я хочу, чтобы он печатал все слова в списке, а не только первое слово. - Lokesh Raju; 09.12.2015

comment

Возможность распечатать список предназначена для отладки, а не для окончательного вывода. Создайте нужную строку из элементов списка, а затем распечатайте ее. - chepner; 09.12.2015

Генерация n-грамм для слов неанглийских языков

Ответы (1)

Вопросы по теме