Попытка очистить Википутешествие

Я пытаюсь очистить вики-путешествие для конкретных данных. например, климат, получение и т. д. Мне удалось получить от них xml со специальным экспортом.

http://wikitravel.org/en/Special:Export/San_Francisco Я получил данные в форме xml, но это в вики-разметке, и я попытался найти решение, чтобы получить этот текст, но не смог найти подходящего решения.

Я попытался написать функцию php с регулярными выражениями, чтобы я мог преобразовать ее в html, но она преобразуется неоднородным образом, поэтому очень сложно выбрать конкретные данные.

Также попытался написать URL-адрес mediawiki, чтобы я мог что-то запрограммировать http://wikitravel.org/en/api.php?format=xml&action=query&titles=Main%20Page&prop=revisions&rvprop=content Но это не работает.

Не могли бы вы помочь мне с этим? Кто-нибудь успешно очистил википедию. У меня есть учебник или любая другая техника, на которую я могу сослаться.


person hungry fish    schedule 16.03.2012    source источник
comment
Я не понимаю. Как вам поможет получение HTML-кода страницы?   -  person svick    schedule 16.03.2012


Ответы (2)


Здесь есть аналогичный вопрос: Где я могу найти хороший анализатор разметки MediaWiki на PHP?

Я также нашел это: https://github.com/codeholic/w/blob/master/creole.php Источник: http://www.ivan.fomichev.name/2010/02/php-creole-10-wiki-markup-parser.html

Это звучит как разочаровывающее усилие, я желаю вам удачи!

person jon    schedule 16.03.2012

MediaWiki API Википутешествия находится по адресу http://wikitravel.org/wiki/en/api.php, поэтому попробуйте это вместо этого:

http://wikitravel.org/wiki/en/api.php?format=xml&action=query&titles=Main%20Page&prop=revisions&rvprop=content

Вы захотите использовать клиент API, см. http://www.mediawiki.org/wiki/API:Client_code для выбора. Также имейте в виду, что Википутешествие использует очень старую версию MediaWiki (1.11), поэтому многие операции в современном API не работают.

person lambshaanxy    schedule 19.03.2012