Я обнаружил, что простые простые регулярные выражения очень интуитивно понятны и просты при работе с хорошими веб-сайтами, а IMDB — хороший веб-сайт.
Например, рейтинг фильма на HTML-странице фильма IMDB находится в <DIV>
с class="star-box-giga-star"
. Это ОЧЕНЬ легко извлечь с помощью регулярного выражения. Следующее регулярное выражение извлекает рейтинг фильма из необработанного HTML-кода в группу захвата 1:
star-box-giga-star[^>]*>([^<]*)<
Это не красиво, но это делает работу. Регулярное выражение ищет идентификатор класса "star-box-giga-star", затем ищет >
, завершающий DIV
, а затем фиксирует все до следующего <
. Чтобы создать новое регулярное выражение, подобное этому, вы должны использовать веб-браузер, который позволяет проверять элементы (например, Crome или Opera). В Chrome вы можете просто посмотреть на веб-страницу, щелкнуть правой кнопкой мыши элемент, который хотите захватить, и выполнить Inspect element
, а затем поискать легко идентифицируемые элементы, которые можно использовать для создания хорошего регулярного выражения. В этом случае класс "star-box-giga-star"
, очевидно, легко идентифицировать! У вас обычно не будет проблем с поиском таких идентифицируемых элементов на хороших веб-сайтах, потому что хорошие веб-сайты используют CSS, а CSS требует ID
или class
, чтобы иметь возможность правильно стилизовать элементы.
person
Cosmin Prund
schedule
13.01.2012