Один для энтузиастов регулярных выражений. У меня есть вектор строк в формате:
<TEXTFORMAT LEADING="2"><P ALIGN="LEFT"><FONT FACE="Verdana" STYLE="font-size: 10px" size="10" COLOR="#FF0000" LETTERSPACING="0" KERNING="0">Desired output string containing any symbols</FONT></P></TEXTFORMAT>
Я знаю об опасностях разбора такого рода вещей с регулярным выражением. Однако было бы полезно знать, как эффективно извлекать выходную подстроку совпадения большей строки, то есть содержимое угловых кавычек >...<
тега шрифта. Лучшее, что я могу сделать, это:
require(stringr)
strng = str_extract(strng, "<FONT.*FONT>") # select font statement
strng = str_extract(strng, ">.*<") # select inside tags
strng = str_extract(strng, "[^/</>]+") # remove angle quote symbols
Какой была бы самая простая формула для достижения этого в R?