Я пытаюсь найти в Википедии все статьи о людях. В частности, я ищу:
- только заголовок страницы (и, возможно, идентификатор страницы)
- статей о людях,
- разделены по полу (для простоты мужской и женский),
- из текущей английской Википедии.
Я пробовал несколько вещей, но ни одна из них не сработала:
API Википедии позволяет мне искать все страниц в заданной категории. Однако при поиске по категориям «Мужчины» или «Женщины» в основном выбираются страницы подкатегорий, а страницы о реальных людях скрываются ниже по иерархии подкатегорий. Я не могу найти способ автоматического обхода иерархии.
PetScan позволяет мне указать глубину иерархии, но время ожидания запросов с глубиной более 3. Также, как Wikipedia API, результаты включают статьи не о людях.
Викиданные позволяют мне писать запросы SPARQL для поиска сущностей, имеющих пол «мужской» или «женский». Кажется, этот пример работает, но один раз Я включаю имена сущностей в запрос, время истекает. Кроме того, я не уверен, насколько точно эти данные соответствуют статьям Википедии, гарантированно ли эти данные будут такими же, как и в Википедии?
Как лучше всего достичь того, что я ищу?