Я хочу использовать регулярное выражение для извлечения всех URL-адресов из текста в кадре данных в новый столбец. У меня есть старый код, который я использовал для извлечения ключевых слов, поэтому я хочу адаптировать код для регулярного выражения. Я хочу сохранить регулярное выражение как строковую переменную и применить здесь:
data$ContentURL <- apply(sapply(regex, grepl, data$Content, fixed=FALSE), 1, function(x) paste(selection[x], collapse=','))
Кажется, что fixed=FALSE
должен сообщить grepl
, что это регулярное выражение, но R не нравится, как я пытаюсь сохранить регулярное выражение как:
regex <- "http.*?1-\\d+,\\d+"
Мои данные организованы во фрейме данных следующим образом:
data <- read.table(text='"Content" "date"
1 "a house a home https://www.foo.com" "12/31/2013"
2 "cabin ideas https://www.example.com in the woods" "5/4/2013"
3 "motel is a hotel" "1/4/2013"', header=TRUE)
И, надеюсь, будет выглядеть так:
Content date ContentURL
1 a house a home https://www.foo.com 12/31/2013 https://www.foo.com
2 cabin ideas https://www.example.com in the woods 5/4/2013 https://www.example.com
3 motel is a hotel 1/4/2013
\\<
и\\>
будут анализироваться? - person joran   schedule 22.10.2014grep
для регулярного выражения в html-документе - person Rich Scriven   schedule 22.10.2014