Я пытаюсь изучить шаблоны Regex для класса. Я делаю простой HTML Lexer/Parser. Я знаю, что это не лучший и не самый эффективный способ создания лексера/парсера, но он предназначен только для понимания шаблонов регулярных выражений.
Итак, мой вопрос: как мне создать шаблон, который проверяет, не содержит ли строка каких-либо тегов HTML (т.е. <TAG>
) и не содержит каких-либо объектов HTML (т.е. &ENT;
)?
Это то, что я мог придумать до сих пор, но это все еще не работает:
.+?(^(?:&[A-Za-z0-9#]+;)^(?:<.*?>))
РЕДАКТИРОВАТЬ: Единственная проблема заключается в том, что я не могу отрицать окончательный результат, который мне нужен, чтобы найти полный шаблон, который выполнил бы эту задачу, если это возможно, хотя это может быть некрасиво. Я никогда не упоминал, но в значительной степени предполагается, что он соответствует любому простому тексту на странице HTML.