MediaWiki API: размер, при котором изображения встраиваются/удаляются несвязанные значки

Я использую API MediaWiki для поиска изображений статей Википедии. Тем не менее, я также получаю все бесполезные значки, такие как метла, когда статью нужно очистить, или логотип Creative Commons, который отмечает, что что-то должно быть размещено под лицензией Creative Commons.

Есть ли способ определить, какие изображения являются такими значками, чтобы я мог их удалить? Например. есть ли способ запросить размер встроенного изображения (а не размер исходного изображения, который может быть огромным даже для значков), чтобы я мог удалить все маленькие. В любом случае, меня не очень интересуют очень маленькие изображения.


person panzi    schedule 19.09.2011    source источник
comment
В настоящее время class=metadata также используется.   -  person Nemo    schedule 24.11.2015


Ответы (1)


Насколько я знаю, нет. Эта информация просто не хранится в базе данных и поэтому также недоступна через API.

Вот некоторые вещи, которые вы могли бы сделать:

  • Загрузите HTML-разметку статьи (через API action=parse или просто через index .php с помощью action=render) и извлеките из него размеры изображений.

  • Просто создайте список изображений, которые следует исключить. Вы можете сделать это программно (например, найти все изображения, используемые во всех шаблонах, включенных в Категория:Шаблоны обслуживания Википедии и все его подкатегории) или просто добавляйте нежелательные изображения в список исключений по мере их появления.

person Ilmari Karonen    schedule 09.11.2011