Я пытаюсь сканировать и очищать таблицы веб-сайта. У меня есть учетная запись на веб-сайте, и я обнаружил, что Rcrawl может помочь мне с получением частей таблицы на основе определенных ключевых слов и т. д. Проблема в том, что на странице GitHub нет упоминания о том, как сканировать сайт с учетной записью. /защита паролем.
Ниже приведен пример входа в систему:
login <- list(username="username", password="password",)
Есть ли у вас какие-либо идеи, есть ли у Rcrawler такая функция? Например что-то вроде:
Rcrawler(Website = "http://www.glofile.com" +
list (username = "username", password = "password" + no_cores = 4, no_conn = 4, ExtractCSSPat = c(".entry-title",".entry-content"), PatternsNames = c("Title","Content"))
Я уверен, что мой код выше неверен, но я надеюсь, что он даст вам представление о том, что я хочу сделать.