Извлечение домена для суффиксов с префиксом звездочки

Я использую tldextract (версия 2.2.2) для извлечения поддоменов/доменов/суффиксов из URL-адресов.

Недавно я заметил результат, который меня удивил:

>>> from tldextract import extract
>>> extract('http://althawrah.ye/archives/597366')
ExtractResult(subdomain='', domain='', suffix='althawrah.ye')

Вместо того, чтобы подбираться как домен, althawrah подбирается как часть суффикса. Почему это?

Немного покопавшись, я заметил в самом Public Suffice List, что .ye является одним из небольшое количество суффиксов, в которых используется ведущая звездочка, например.

// fj : https://en.wikipedia.org/wiki/.fj
*.fj
// ye : http://www.y.net.ye/services/domain_name.htm
*.ye

Подразумевается, что эти суффиксы не позволяют регистрировать доменные имена непосредственно под суффиксом, а вместо этого должны быть зарегистрированы как имя третьего уровня. Однако это не в случае http://althawrah.ye/; то есть althawrah не указан как домен второго уровня .ye. И так, что здесь происходит?


person Brad Solomon    schedule 17.10.2019    source источник


Ответы (2)


Судя по истории списка и описанию процесса обновления, запись о Йемене просто неверна или устарела. Запись была добавлена ​​до 2007 года (когда список был перенесен из CVS в git), в то время как в руководстве по списку указано следующее:

Изменения [для доменов ICANN] должны исходить либо от представителя реестра (подтвержденного способом, аналогичным описанному ниже), либо из общедоступных источников, таких как веб-сайт реестра.

веб-сайт, указанный в списке (который не менялся с 2002 г.), дает немного подробностей, но упоминает URL-адреса в формате www.yourcompany.com.ye, откуда предположительно произошло правило *.ye. база данных корневой зоны IANA указывает TeleYemen в качестве текущего менеджера TLD, но на их сайте нет упоминания о регистрации домена. Список предполагаемых «доменов второго уровня» в Википедии был добавлен в 2008 г. канадским пользователем, ссылающимся на давно удаленный веб-сайт компании под названием phpcomet (архив здесь), которые утверждали, что продают домены в перечисленных доменах второго уровня. Однако поиск в Google по запросу «site:ye» показывает множество сайтов за пределами этих доменов (например, press24.ye, ndc.ye) и не дает никаких результатов для многих из них (me.ye, co.ye, ltd.ye). , ООО).

Я не уверен, что можно сделать, чтобы обновить официальный список, но я не удивлюсь, если правильная запись будет выглядеть примерно так:

ye
com.ye
edu.ye
gov.ye
org.ye
person Uri Granta    schedule 17.10.2019

Эти изменения были объединены в publicsuffix/list в запросе на включение 1189 благодаря TeleYemen и сопровождающие проекта.

В списке теперь явно указываются поддомены и удаляется звездочка *.

person Brad Solomon    schedule 09.03.2021