У меня есть очень длинный список веб-сайтов, которые я хотел бы просмотреть на предмет title
, description
и keywords
.
Я использую ContentScraper
из пакета Rcrawler
, и я знаю, что он работает, но есть определенные URL-адреса, которые он не может сделать, и просто генерирует сообщение об ошибке ниже. В любом случае, он может пропустить этот конкретный URL-адрес вместо остановки всего выполнения?
Error: 'NULL' does not exist in current working directory
Я просмотрел это , но я не думаю, что на него есть ответ. Вот код, который я использую. Любые советы высоко ценится.
Web_Info <- ContentScraper(Url = Websites_List,
XpathPatterns = c('/html/head/title', '//meta[@name="description"]/@content', '//meta[@name="keywords"]/@content'),
PatternsName = c("Title", "Description", "Keywords"),
asDataFrame = TRUE)