Как загрузить динамически сгенерированную веб-страницу?

Я пытаюсь загрузить веб-страницу http://www.artstation.com/artist/nicotine. , поэтому я могу очистить страницу, к сожалению, страница создается с помощью кода, поэтому теги, которые я ищу, недоступны.

Загрузка его со следующим не работает, так как он загружает только исходный javascript, а не контент, который он генерирует:

HtmlWeb htmlWeb = new HtmlWeb();
imagepage = htmlWeb.Load(http://www.artstation.com/artist/nicotine);

Как я могу загрузить страницу, отображаемую в браузере, чтобы я мог очистить ее от тегов?


person Chris L    schedule 17.08.2014    source источник
comment
Я не уверен, что такое скрабирование. Если вас интересует только получение HTML-кода, загрузите веб-страницу в браузере и используйте document.body.innerHTML. Вы также можете скопировать содержимое в буфер обмена.   -  person sampathsris    schedule 17.08.2014
comment
Вы должны использовать Fiddler, чтобы отслеживать трафик, который проходит при загрузке страницы. Кроме того, прочитайте JavaScript в своем коде.   -  person Matthew Haugen    schedule 17.08.2014
comment
По общему признанию, я думаю, что это этическая обязанность указать, что этот сайт не выглядит так, как будто он приветствует очистку, как это делаете вы. Также кажется, что, делая это динамически, они предпринимают определенные шаги, для того, чтобы сделать это трудным.   -  person Matthew Haugen    schedule 17.08.2014


Ответы (1)


Вы не можете использовать для этого HtmlAgilityPack. Когда HAP запрашивает у сервера файл подкачки, содержимое этого файла еще не было проанализировано/выполнено веб-браузером, поэтому JavaScript еще ничего не сделал.

Для этого есть работа. Вы можете использовать selenium или phantomJs для получения содержимого динамически генерируемых тегов. У этих инструментов есть стек браузера, и он выполнит вам JavaScript. Вы можете найти много других подобных инструментов и множество примеров.

person cdev    schedule 17.08.2014