Я использую Mediawiki api
для получения контента со страниц Википедии. Я написал код, который генерирует следующий запрос (например):
Который извлекает только начальный абзац со страницы Википедии о Гавайях.
Проблема в том, что, как вы могли заметить, есть много нерелевантных подстрок, таких как:
"[[Molokai|Moloka{{okina}}i]], [[Lanai|Lāna{{okina}}i]], [[Kahoolawe|Kaho{{okina}}olawe]], [[Maui]] and the [[Hawaii (island)|"
.
Все эти баркеты [[]] не актуальны , и мне интересно, есть ли какой-нибудь элегантный метод, чтобы вытягивать с таких страниц только «чистый» контент?
Заранее спасибо.