Вопросы по теме 'html-content-extraction'

Извлечение текста из файла HTML с помощью Python
Я хотел бы извлечь текст из файла HTML с помощью Python. Мне нужен практически такой же результат, как если бы я скопировал текст из браузера и вставил его в блокнот. Я бы хотел что-то более надежное, чем использование регулярных выражений,...
422710 просмотров
schedule 15.06.2023

Как написать регулярное выражение для разбора html?
Я пытаюсь написать регулярное выражение для моего парсера html. Я хочу сопоставить тег html с заданным атрибутом (например, <div> с class="tab news selected" ), который содержит один или несколько тегов <a href> . Регулярное...
4901 просмотров

Получение BeautifulSoup для поиска определенного ‹p›
Я пытаюсь собрать базовый парсер HTML для различных веб-сайтов научных журналов, в частности, пытаясь получить реферат или вводный абзац. В настоящее время я работаю над журналом Nature, а статью, которую я использовал в качестве образца, можно...
9619 просмотров

jQuery: получение / парсинг контента с разных сайтов
Я бы хотел сделать следующее: собирать новости с нескольких сайтов, разбирать их контент с помощью селекторов jQuery и показывать их на одной странице. Как это можно было сделать с помощью jQuery? Спасибо.
1820 просмотров
schedule 11.07.2023

Как я могу найти ленту или XML определенного источника новостей
Я хочу получить xml-файл определенного источника новостей, если есть какой-либо проект, который преобразует html-новости в xml, анализируя страницу и токенизируя ее различные характеристики, такие как дата, имя автора, заголовок, контент и т. Д., В...
133 просмотров
schedule 15.04.2023

лучший способ извлечь информацию из сети delphi
Я хочу знать, есть ли лучший способ извлечения информации с веб-страницы, чем анализ HTML того, что я ищу. т. е. Извлечение рейтинга фильма из imdb.com. В настоящее время я использую компоненты IndyHttp для получения страницы, и я использую...
4829 просмотров

Очистка текстовой строки после получения основного текста с помощью Beautifulsoup
Я пытаюсь получить текст из статей на разных веб-страницах и написать их как чистые текстовые документы. Мне не нужен весь видимый текст, потому что он часто включает нерелевантные ссылки сбоку веб-страницы. Я использую Beautifulsoup для извлечения...
4832 просмотров

Извлечение ссылок в Perl с помощью TreeBuilder
Я работаю над скриптом, чтобы извлечь кучу информации в один файл HTML. Однако у меня возникли трудности с извлечением ТОЛЬКО определенного набора ссылок с рассматриваемой страницы. Вот примерная структура сайта. Между разделом внутреннего...
571 просмотров

Разделите и извлеките текстовое содержимое из каждого вложенного элемента div на странице.
У меня есть HTML из URL. Чего я хочу добиться, так это извлекать только текстовое содержимое внутри div. Любая идея, если она может быть достигнута. Структура будет похожа на эту <div class="first"> <div class="second"> Some...
149 просмотров
schedule 07.10.2023