Rails + MediaWiki API для извлечения данных из Википедии

Я пытаюсь использовать Rails для извлечения данных из Википедии на основе поискового запроса.

Например,

1) если у меня есть строка «Американский идол», я хочу передать ее в Википедию и получить список статей, которые относятся к ней. Моя цель будет состоять в том, чтобы взять первые 3 гиперссылки и отобразить их на веб-сайте.

2) еще один шаг потребует от меня извлечения небольших фрагментов данных из Википедии — скажем, информационного поля или первых нескольких слов статьи в Википедии.

Какие-нибудь советы?

Спасибо!


person Carlos F    schedule 20.10.2011    source источник
comment
проверьте эту ссылку, вам может понравиться wikipedia.coffee зачистка Википедии   -  person AMIC MING    schedule 04.01.2013


Ответы (3)


Вам не нужно прибегать к очистке экрана, у MediaWiki есть очень полный API для именно такая штука. См. https://github.com/jpatokal/mediawiki-gateway для удобной оболочки Ruby. .

В качестве альтернативы, если вас интересуют только данные, такие как информационные поля, см. DBpedia для версии базы данных Википедии.

person lambshaanxy    schedule 27.10.2011
comment
К сожалению, этот драгоценный камень больше не находится в активной разработке. Может быть, вы знаете другой проект, который активно поддерживается? - person zeliboba7; 07.11.2012
comment
Вероятно, следует изменить формулировку: это должно означать, что я больше не трачу на это свое время, но я более чем счастлив принимать запросы на включение. Насколько я знаю, он отлично работает на всех текущих версиях MediaWiki. - person lambshaanxy; 08.11.2012


Для этого используйте механизацию и нокогири. Это отличная шпаргалка для этого:

http://www.e-tobi.net/blog/files/ruby-mechanize-cheat-sheet.pdf

Mechanize — это набор инструментов для имитации вызовов веб-сайтов, а nokogiri — парсер html/xml. Это должно быть просто понять.

person davidb    schedule 20.10.2011