rcurl & innerHTML/innertext (очистка трендов Google с помощью R)

Я довольно часто использовал rcurl для простого извлечения текста и простой очистки, но меня поставили в тупик тренды Google. Давайте возьмем Обаму и Ромни в качестве примера. Если вы добавите «&export=1», Google Trends вернет страницу, отображающую данные, лежащие в основе графика.

http://www.google.com/trends/explore?q=obama%2C+romney#q=obama%2C%20romney&export=1

На этой странице данные находятся в div reportContent, который вы можете проверить, проверив элемент на наличие:

<div id="reportContent" class="report-content"> </div>

В частности, он спрятан в свойствах innerHTML и внутреннего текста, связанных с этим div. Я никогда раньше этого не видел, и мне интересно, как получить доступ к этим данным с помощью rcurl. Мне также любопытно, если кто-нибудь знает, почему Google просто не представляет данные в простом html. Я признаю, что я не очень хорошо осведомлен; Я читаю об этом столько, сколько могу, но то, что я узнал о свойстве внутреннего текста (немного), не особенно освещает или помогает в изменении моего сценария rcurl.


person Don    schedule 12.06.2013    source источник
comment
Почему бы вам не загрузить это в формате CSV, например. (для вышеуказанного URL): google. .com/тренды/   -  person daroczig    schedule 13.06.2013
comment
Не знал как - спасибо! Вы ответили на мой вопрос.   -  person Don    schedule 13.06.2013
comment
Совсем недавно был опубликован пакет под названием GTrends, который основан на библиотеке RCurl и должен делать то, что вы пытаетесь сделать. Взгляните на Просто еще один блог R   -  person hvollmeier    schedule 13.06.2013
comment
daroczig: Проблема в том, что если вы попытаетесь использовать это программно, вы получите сообщение об ошибке, связанное с отсутствием входа в google. И когда вы входите через rcurl, он все равно выдает ошибку, связанную с входом в систему.   -  person Don    schedule 14.06.2013
comment
hvollmeier: этот пакет решает мою проблему — спасибо!   -  person Don    schedule 14.06.2013
comment
Хвольлмайер: ах. скорее, это решило бы мою проблему, за исключением того, что пакет имеет ту же проблему, что и я. По сути, rcurl не сохраняет идентификатор и пароль, необходимые для загрузки из трендов Google.   -  person Don    schedule 14.06.2013


Ответы (1)


Вы должны войти в систему Google, чтобы получить несколько данных о тенденциях, в противном случае Google может легко вас заблокировать. Google может учитывать несколько факторов при блокировке вас, например. IP-адрес/аккаунты Google/тип устройства/машина или человек.

Я предоставляю онлайн-сервис парсинга трендов Google на http://www.datadriver.info/scrapdata/?case_task_id=b333f048be31cad3922f1c8c919700f860f5adbe, используя этот сервис, вы не столкнетесь со скучной проблемой "Вы достигли квоты. Повторите попытку позже".

person xjfengck    schedule 03.12.2014