Мне нужно найти лучший способ сопоставить точную комбинацию шаблонов символов, букв и цифр из CSV или текстового файла с очень неструктурированным набором данных.
Мне нужно извлечь точно образец «BR1*********
» (BR1
+ ровно 9 цифр), который находится в середине строки: 61:, и образец «?54***
» (?54
+ ровно 3 цифры), который всегда находится в конце строки: 61 :.
Оба шаблона повторяются, но с разными комбинациями цифр.
Я пробовал с grep
и grepl
пока безуспешно. Я получаю в результате всегда всю строку, где этот шаблон примерно совпадает, но не точное совпадение символов и цифр.
Ниже представлена небольшая часть набора данных:
:11:hgttu6576575?//80&&80980jhkhkhlkhkh gjdggfjsdf?kjhkuhsfk778798978**&
:27:jhkjhuiy867tjhfsh/.>?kjklh8ggdhkotrdkhofkhodkgj
:61:kjljlkfjsdlBR1678899458iyuyugug7787?>?///uhhiuyi
jhkhkjhiy878697y8hukjlu97 ??///khiuy8oujhuhijk?54160
:11:hgggdgf79878yiuhlkhkh gjdggfhuihiuhuiou89 ioiojsdf?kjhkuhsfk778798978**&
:27:jhkjhuiy867tjhfsh/.>?kjklh8ggdhkotrdkhofkhodkgj
:61:kjljlkfjsdlBR1234885765iyuyugug7787?>?///uhhiuyi
jhkhkjhiy878697y8hukjlu97 ??///khiuy8oujhuhijk?54190
dput(head(lines))
? Кроме того, можете ли вы проверить, работает ли решение для меньшего набора данных? т.е.lines1 <- head(lines,20)
- person akrun   schedule 26.10.2014lines <- readLines("file.txt")
, а затем опубликовать первые несколько строк, используяdput(head(lines))
. Также вы запускали код на подмножестве набора данных. - person akrun   schedule 26.10.2014