Существует ли известная схема URI или пространство имен URN для символов Unicode?

Мне нужно сослаться на символ Unicode с помощью URI. Следующие ссылки IANA перечисляют несколько схем и пространств имен, но ничего не говорят об идентификаторах для символов Unicode. Кто-нибудь знает, существует ли уже что-то подобное?

Я надеялся найти что-то вроде

  • unicode://U+0394
  • urn:unicode://0394
  • http://unicode.org/unicode/0394

для греческой заглавной буквы дельта Δ.

Если кому-то интересно, это для семантического веб-приложения, которое использует URI в качестве идентификаторов для понятий, включая понятия символов Unicode.


person Akseli Palén    schedule 28.07.2012    source источник


Ответы (3)


Боюсь, что не существует URL или URN для ссылки на авторитетную информацию о символе Unicode в целом. В стандарте Unicode информация об отдельных символах находится частично в так называемой базе данных символов (в основном это обычные текстовые файлы в определенных форматах), частично в таблицах кодов (файлы PDF). Ни один из них не предлагает способа указать на отдельного персонажа. Более того, информация там не исчерпывающая: есть важные примечания по отдельным символам, разбросанные по стандарту.

На сайте Decodeunicode есть индивидуально адресуемые элементы, такие как

http://www.decodeunicode.org/en/u+0394

но его информационное содержание сильно различается и, как правило, очень ограничено. Он не является официальным и в настоящее время содержит только Unicode 5.0.

Сайт Fileformat.info гораздо более систематичен, но он также является неофициальным. В основном он ограничен формальными свойствами и данными, полученными из них, плюс комментариями, извлеченными из таблиц кодов, плюс инструкциями по вводу символа в Windows, плюс информацией о поддержке в шрифтах — но это довольно много! Пример:

http://www.fileformat.info/info/unicode/char/0394/

person Jukka K. Korpela    schedule 28.07.2012

[EDIT]: нашел этот URL-адрес, соответствующий вашим потребностям: http://unicode.org/cldr/utility/character.jsp?a=1F40F

.

Что ж, есть URL-адрес, ссылающийся на авторитетную информацию в базе данных Unicode, хотя он не описывает (как сказано в другом ответе) всю информацию об одном конкретном символе.

У вас есть следующий URL-адрес, указывающий на последнюю базу данных Unicode. Это простой список существующих допустимых символов Unicode. Некоторые предстоящие символы отсутствуют (㋿), и вы должны ожидать, что они будут изменчивыми.

Содержимое выглядит следующим образом, что не так практично использовать как есть.

$ grep -ai kangaroo UnicodeData.txt -C 7
1F991;SQUID;So;0;ON;;;;;N;;;;;
1F992;GIRAFFE FACE;So;0;ON;;;;;N;;;;;
1F993;ZEBRA FACE;So;0;ON;;;;;N;;;;;
1F994;HEDGEHOG;So;0;ON;;;;;N;;;;;
1F995;SAUROPOD;So;0;ON;;;;;N;;;;;
1F996;T-REX;So;0;ON;;;;;N;;;;;
1F997;CRICKET;So;0;ON;;;;;N;;;;;
1F998;KANGAROO;So;0;ON;;;;;N;;;;;
1F999;LLAMA;So;0;ON;;;;;N;;;;;
1F99A;PEACOCK;So;0;ON;;;;;N;;;;;
1F99B;HIPPOPOTAMUS;So;0;ON;;;;;N;;;;;
1F99C;PARROT;So;0;ON;;;;;N;;;;;
1F99D;RACCOON;So;0;ON;;;;;N;;;;;
1F99E;LOBSTER;So;0;ON;;;;;N;;;;;
1F99F;MOSQUITO;So;0;ON;;;;;N;;;;;

Вы можете создать хакерское «хеш-основанное» пространство имен с таким суффиксом, но это определенно нестандартно.

person global uuid database    schedule 09.12.2018

Поскольку это также помечено тегом semantic-web, я постараюсь выбрать такие URI, которые легко (и навсегда) разыменовываются и которые нельзя спутать с документом, описывающим этот символ: схема data:. Это может относиться не только к символу в Unicode, но и к любой кодировке, а также к любой ее строке.

data:;charset=utf-8,%CE%94

Попытка открыть этот URI должна привести к созданию файла text/plain с одним символом в качестве содержимого.

Если система принимает IRI (как это делают многие семантические веб-приложения), символ может быть включен напрямую:

data:;charset=utf-8,Δ

Это сопоставлено с тем же URI, что и показано выше, и ваш браузер может преобразовать его напрямую. В этом случае необходимо указать UTF-8, так как отображение не определено для других кодировок.

person IS4    schedule 26.01.2021