Я делаю веб-скрейпинг в этой сети:
http://www.falabella.com.pe/falabella-pe/category/cat40536/Climatizacion?navAction=push
Мне просто нужна информация от продуктов: "бренд", "название продукта", "цена".
Я могу получить это, но также я получаю информацию из баннера с аналогичными продуктами других пользователей. Мне это не нужно.
Но когда я перехожу к исходному коду страницы, я не вижу эти продукты. Я думаю, что это было сделано через javascript или что-то в этом роде:
ВОПРОС 1: Как заблокировать эту информацию при просмотре веб-страниц? Это добавляет продукты, которые мне не нужны. Но не могу увидеть эту часть в исходном коде.
ВОПРОС 2. При извлечении цен "precio1" я получаю это как первый элемент: "\n\t\t\t\tSubtotal InternetS/. 0"
Я также не вижу этого в исходном коде. Как его не поцарапать?
library(RSelenium)
library(rvest)
#start RSelenium
checkForServer()
startServer()
remDr <- remoteDriver()
remDr$open()
#navigate to your page
remDr$navigate("http://www.falabella.com.pe/falabella-pe/category/cat40536/Climatizacion?navAction=push")
page_source<-remDr$getPageSource()
Climatizacion_marcas1 <- html(page_source[[1]])%>%
html_nodes(".marca") %>%
html_nodes("a") %>%
html_attr("title")
Climatizacion_producto1 <- html(page_source[[1]])%>%
html_nodes(".detalle") %>%
html_nodes("a") %>%
html_attr("title")
Climatizacion_precio1 <- html(page_source[[1]])%>%
html_nodes(".precio1") %>%
html_text()