Вопросы по теме 'character-properties'

Регулярные выражения JavaScript + Unicode
Как я могу использовать в JavaScript регулярные выражения с поддержкой Unicode? Например, должно быть что-то вроде \w , которое может соответствовать любой кодовой точке в категории Letters или Marks (а не только ASCII), и, надеюсь, иметь фильтры...
147616 просмотров

Разбиватель слов регулярных выражений в юникоде
Как преобразовать регулярное выражение \w+, чтобы получить целые слова в Unicode, а не только в ASCII? я использую .нет
994 просмотров
schedule 23.09.2022

Регулярное выражение Python, соответствующее свойствам Unicode
Perl и некоторые другие современные механизмы регулярных выражений поддерживают свойства Unicode, такие как категория, в регулярном выражении. Например. в Perl вы можете использовать \p{Ll} для соответствия произвольной строчной букве или p{Zs}...
15738 просмотров

Регулярные выражения Mathematica для строк Unicode
Это был увлекательный опыт отладки. Можете ли вы найти разницу между следующими двумя строками? StringReplace["–", RegularExpression@"[\\s\\S]" -> "abc"] StringReplace["-", RegularExpression@"[\\s\\S]" -> "abc"] Они делают очень разные...
390 просмотров

Регулярное выражение в Java, которое принимает в качестве входных данных буквенно-цифровые символы, за которыми следует косая черта, а затем снова буквенно-цифровые
Мне нужно регулярное выражение, которое принимает в качестве ввода буквенно-цифровое значение, за которым следует косая черта, а затем снова буквенно-цифровое. Как мне написать регулярное выражение на Java для этого? Пример для этого следующий:...
727 просмотров

Перечислить свойства Unicode персонажа в Ruby?
Есть ли способ перечислить все свойства Unicode персонажа в Ruby? Я могу использовать класс Regexp в Ruby 1.9, чтобы проверить, имеет ли заданный символ определенное свойство (например, some_char =~ /\p{P}/ , чтобы проверить, является ли some_char...
492 просмотров
schedule 25.07.2023

Есть ли способ сопоставить любой алфавитный символ Unicode?
У меня есть несколько документов, которые прошли преобразование OCR из PDF в HTML. Из-за этого у них оказалось много случайных знаков препинания юникода, где конвертер испортился (т. Е. Многоточие и т. Д.). У них также правильно есть куча...
22864 просмотров
schedule 12.02.2023

Сканирование номеров Unicode в строке с \d
Согласно документации Oniguruma , тип символа \d соответствует: десятичная цифра char Unicode: General_Category -- Decimal_Number Однако сканирование \d в строке со всеми символами Decimal_Number приводит к совпадению только латинских...
1546 просмотров
schedule 16.03.2022

Отмывание испорченных данных
Когда я отмываю испорченные данные, проверяя, есть ли в них какие-либо плохие символы, существуют ли свойства unicode, которые будут фильтровать плохие символы?
146 просмотров
schedule 17.12.2022

Регулярное выражение имени Unicode
Я нашел много ссылок по этому поводу, но ни одна из них мне не подошла. Я использовал \p{Letter} , это позволяло использовать пробел и цифры. Я хочу регулярное выражение Unicode для имени человека. Только буквы, такие как английский, латинский,...
554 просмотров
schedule 23.08.2022