Список самых просматриваемых страниц проектов викимедиа (википедия) с более чем 1000 результатов

Я видел, что существуют различные API и различные инструменты, которые позволяют вам видеть наиболее посещаемые страницы проектов викимедиа, таких как википедия, но все эти сервисы имеют ограничение, они не позволяют показывать более 1000 страниц, в то время как я бы хотел бы иметь список из 5000-10000 (или более) наиболее посещаемых страниц в порядке трафика.

это все сервисы, которые я проверял и с которыми нашел этот лимит:

https://en.wikipedia.org/w/api.php?action=help&modules=query%2Bmostviewed

https://stats.wikimedia.org/#/en.wikipedia.org/reading/top-viewed-articles/normal%7Ctable%7Clast-month%7C%7Etotal%7Cmonthly

https://pageviews.toolforge.org/topviews/?project=en.wikipedia.org&platform=all-access&date=last-month&excludes=

https://wikimedia.org/api/rest_v1/#/Pageviews%20data

Я также нашел такие сервисы, как https://quarry.wmflabs.org/ или https://query.wikidata.org/, где вы можете выполнить запрос, технически, возможно, через этот сервис вы могли бы, но я этого не делаю. знать запрос, который нужно выполнить, чтобы показать страницы с наибольшим количеством посещений.

Я также нашел здесь интересную статью: https://www.reddit.com/r/bigquery/comments/3dg9le/analyzing_50_billion_wikipedia_pageviews_in_5/, где объясняется, что можно использовать Google BigQuery, но это внешний сервис, и перед его использованием я хотел знать, существует ли более простой метод.


person Overflow992    schedule 30.06.2020    source источник


Ответы (1)


Если REST API не подходит для ваших целей, вам нужно самостоятельно проанализировать необработанные данные. Это потому, что все инструменты, которые вы связали, просто используют REST API.

Необработанные данные доступны по адресу https://dumps.wikimedia.org/other/pageviews/. Там есть две группы файлов. Один начинается с pageviews-, в котором указано количество просмотров отдельных страниц, второй начинается с projectviews-, в котором указано количество просмотров отдельных проектов.

Для вашей цели вам нужны просмотры страниц. Загрузите файлы для вашего временного промежутка, а затем проанализируйте их с помощью скрипта.

Файл разделен пробелом. Каждая строка представляет одну страницу, которая была посещена за этот час. Первый столбец представляет проект (например, en — это английская Википедия), второй — название страницы (пробелы представлены подчеркиванием), а затем — общее количество просмотров страниц.

Техническая документация доступна по адресу https://wikitech.wikimedia.org/wiki/Analytics/Data_Lake/Traffic/Pageviews.

person Martin Urbanec    schedule 02.07.2020
comment
Файл дампа — хороший вариант, но требует много ресурсов и времени на управление. Я искал что-то легко управляемое и с постоянными обновлениями, такими как упомянутые API или сервисы. Я нашел это руководство cran.r-project.org/web/ packages/pageviews/vignettes/, где поясняется, какой запрос использовать для экстраполяции страниц с несколькими посещениями, я попробовал этот запрос в query.wikidata.org, но это не работает - person Overflow992; 04.07.2020
comment
query.wikidata.org предназначен для запроса WIkidata — многоязычной фактологической базы данных. Если я что-то не упустил, просмотры страниц не сохраняются в Викиданных. Боюсь, файлы дампа - ваш единственный вариант :/. Ссылка, которую вы разместили, похоже, посвящена использованию REST API, но, поскольку она ограничена 1000 лучших, она не поможет: /. - person Martin Urbanec; 04.07.2020