Разобрать указанный текст со страницы с помощью парсера jericho html

У меня проблемы с извлечением указанного текста со страницы. В качестве примера я использую Сводка патентообладателя

Если вы зайдете на сайт, то увидите, что там есть «Всего: 82» (это количество обращений по критерию SASA). Мне нужно получить этот номер. Я использую парсер jericho html, но не могу найти для этого никакой функции.

Может ли кто-нибудь помочь мне в этом? Мне ОЧЕНЬ нужно, чтобы этот номер был на странице.

Заранее спасибо - Саша


person user1288792    schedule 23.03.2012    source источник
comment
Можете ли вы переключиться с Jericho на другую библиотеку?   -  person ollo    schedule 04.02.2013


Ответы (1)


Если вы можете переключиться на Jsoup:

/* Connect to URL and parse it into a 'Document' */
Document doc = Jsoup.connect("http://assignments.uspto.gov/assignments/q?db=pat&qt=asne&reel=&frame=&pat=&pub=&asnr=&asnri=&asne=sasa&asnei=&asns=").get();

/* Select the required tag and print the value */
System.out.println(doc.select("p.t2").first().text());

Сделанный!

Вывод:

Всего: 83 (значение изменено на веб-сайте)

Селекционер объяснил:

doc.select("p.t2") // Select each 'p'-tag with 't2' attribute from document
   .first() // Get the first one (there are two on the website, but the first one is the required one)
   .text() // Get the text of this element

Документация:

person ollo    schedule 04.02.2013