Может ли кто-нибудь помочь нам с регулярным выражением для обнаружения повторяющихся шаблонов внутри строки URL? Цель, очевидно, состоит в том, чтобы обнаружить неверно сформированные странные URL-адреса.
Например, допустимы следующие URL:
http://www.somewhere.com/help/content/21/23/en/
http://www.somewhere.com/help/content/21/24/en/
http://www.somewhere.com/help/content/21/64/en/
http://www.somewhere.com/help/content/21/65/en/
http://www.somewhere.com/help/content/21/67/en/
В то время как эти неверны и должны быть помечены:
http://www.somewhere.com/help/content/21/content/1/54/en/
http://www.somewhere.com/help/content/21/content/1/62/en/
http://www.somewhere.com/help/content/21/content/8/52/en/
Поскольку content повторяется дважды. До сих пор мы решали эту проблему с помощью parse_url и Explosion, но это выглядит довольно неэффективно!
Кроме того, я знаю, что может быть много URL-адресов, которые повторяют число в пути или какое-либо другое значение, поэтому любые предложения по решению этой проблемы будут более чем приветствуются.
Большое спасибо!
Чтобы лучше понять проблему, вы можете перейти по следующей ссылке и нажать «Администратор MySQL»:
substr_count
, а если контент появляется более одного раза, отметьте его. В противном случае, пожалуйста, опубликуйте примеры возможных шаблонов, которые могут повторяться. - person newfurniturey   schedule 24.09.2012