Я использую tldextract (версия 2.2.2) для извлечения поддоменов/доменов/суффиксов из URL-адресов.
Недавно я заметил результат, который меня удивил:
>>> from tldextract import extract
>>> extract('http://althawrah.ye/archives/597366')
ExtractResult(subdomain='', domain='', suffix='althawrah.ye')
Вместо того, чтобы подбираться как домен, althawrah
подбирается как часть суффикса. Почему это?
Немного покопавшись, я заметил в самом Public Suffice List, что .ye
является одним из небольшое количество суффиксов, в которых используется ведущая звездочка, например.
// fj : https://en.wikipedia.org/wiki/.fj
*.fj
// ye : http://www.y.net.ye/services/domain_name.htm
*.ye
Подразумевается, что эти суффиксы не позволяют регистрировать доменные имена непосредственно под суффиксом, а вместо этого должны быть зарегистрированы как имя третьего уровня. Однако это не в случае http://althawrah.ye/; то есть althawrah
не указан как домен второго уровня .ye. И так, что здесь происходит?