Очистка новостей Google с помощью Rvest для ключевых слов

Я хочу сравнить новостные статьи из разных стран по использованию определенного ключевого слова.

Моя идея состоит в том, чтобы очистить новости Google с помощью RCrawler:

RCrawler(website = “https://news.google.com/topics/CAAqIggKIhxDQkFTRHdvSkwyMHZNREZqY0hsNUVnSmtaU2dBUAE?hl=de&gl=DE&ceid=DE%3Ade”, MaxDepth = 5, Keywordfilter = c(“Keyword”), KeywordAccuracy = 99)

А потом просто считаю результаты, которые я получаю обратно. Я не уверен, что это лучший метод или даже правильный, но я новичок в R, и это лучший метод, который я могу придумать на данный момент.


person schneebii    schedule 31.12.2020    source источник
comment
Добро пожаловать в Stackoverflow! Я поделился ответом на ваш запрос ниже. Обратите внимание, что эти вопросы и ответы служат в качестве справочной информации для других пользователей, кроме вас, поэтому ваш заголовок и сведения о публикации должны отражать такую ​​ответственность. Я бы предложил изменить ваш заголовок на «Очистка новостей Google с помощью Rvest» или что-то в этом роде, потому что текущий не описывает проблему.   -  person Aman    schedule 01.01.2021


Ответы (1)


Поскольку вы используете новости Google, вместо очистки таким образом более простым способом будет доступ к RSS-каналу для этого конкретного ключевого слова и вставка его в фрейм данных. К счастью, для этого можно использовать пакет {tidyRSS}.

Пример того, как выглядит лента с этим URL:

https://news.google.com/rss/search?q=apple&hl=en-IN&gl=IN&ceid=IN:en

Узнайте, как настроить этот URL здесь. Вы можете искать по геолокации, если хотите.

После установки tidyRSS вы можете реализовать его следующим образом:

library(tidyRSS)

# I will search for the keyword Apple

keyword <- "https://news.google.com/rss/search?q=apple&hl=en-IN&gl=IN&ceid=IN:en"
# From the package vignette

google_news <- tidyfeed(
  keyword,
  clean_tags = TRUE,
  parse_dates = TRUE
)

Это дает вам фрейм данных со многими переменными, которые описывают каждую статью. Вы можете выбрать, какие из них оставить.

person Aman    schedule 01.01.2021