Мне нужно преобразовать строку юникода в символы юникода.
например: язык тамильский
"கமலி"=>'க','ம','லி'
я могу удалить байты юникода, но создание символов юникода стало проблемой.
byte[] stringBytes = Encoding.Unicode.GetBytes("கமலி");
char[] stringChars = Encoding.Unicode.GetChars(stringBytes);
foreach (var crt in stringChars)
{
Trace.WriteLine(crt);
}
это дает результат как:
'க'=>0x0b95
'ம'=>0x0bae
'ல'=>0x0bb2
'ி'=>0x0bbf
Итак, здесь проблема заключается в том, как разделить символ 'லி' как 'லி' без разделения на 'ல', 'ி'.
так как это естественно в индийском языке, представляя согласную и гласную как отдельные символы, но синтаксический анализ с помощью С# затрудняет.
Все, что мне нужно разделить на 3 символа.
Char
отображаются как один глиф или лигатура - не знаю какая... Но все равно непонятно, чего вы хотите. Я подозреваю, что ответ скрыт в описании Char и StringInfo но вам нужно отредактировать свой вопрос, чтобы его было легче понять. - person Alexei Levenkov   schedule 20.12.2012