Публикации по тегам html-content-extraction

Вопросы по теме 'html-content-extraction'

Извлечение текста из файла HTML с помощью Python

Я хотел бы извлечь текст из файла HTML с помощью Python. Мне нужен практически такой же результат, как если бы я скопировал текст из браузера и вставил его в блокнот. Я бы хотел что-то более надежное, чем использование регулярных выражений,...

422710 просмотров

15.06.2023

Как написать регулярное выражение для разбора html?

Я пытаюсь написать регулярное выражение для моего парсера html. Я хочу сопоставить тег html с заданным атрибутом (например, <div> с class="tab news selected" ), который содержит один или несколько тегов <a href> . Регулярное...

4901 просмотров

c++ html boost regex html-content-extraction

13.04.2023

Получение BeautifulSoup для поиска определенного ‹p›

Я пытаюсь собрать базовый парсер HTML для различных веб-сайтов научных журналов, в частности, пытаясь получить реферат или вводный абзац. В настоящее время я работаю над журналом Nature, а статью, которую я использовал в качестве образца, можно...

9619 просмотров

python beautifulsoup html-content-extraction

10.02.2023

jQuery: получение / парсинг контента с разных сайтов

Я бы хотел сделать следующее: собирать новости с нескольких сайтов, разбирать их контент с помощью селекторов jQuery и показывать их на одной странице. Как это можно было сделать с помощью jQuery? Спасибо.

1820 просмотров

jquery html-content-extraction

11.07.2023

Как я могу найти ленту или XML определенного источника новостей

Я хочу получить xml-файл определенного источника новостей, если есть какой-либо проект, который преобразует html-новости в xml, анализируя страницу и токенизируя ее различные характеристики, такие как дата, имя автора, заголовок, контент и т. Д., В...

133 просмотров

rss html-content-extraction

15.04.2023

лучший способ извлечь информацию из сети delphi

Я хочу знать, есть ли лучший способ извлечения информации с веб-страницы, чем анализ HTML того, что я ищу. т. е. Извлечение рейтинга фильма из imdb.com. В настоящее время я использую компоненты IndyHttp для получения страницы, и я использую...

4829 просмотров

parsing delphi information-extraction html-content-extraction

10.07.2022

Очистка текстовой строки после получения основного текста с помощью Beautifulsoup

Я пытаюсь получить текст из статей на разных веб-страницах и написать их как чистые текстовые документы. Мне не нужен весь видимый текст, потому что он часто включает нерелевантные ссылки сбоку веб-страницы. Я использую Beautifulsoup для извлечения...

4832 просмотров

python text html beautifulsoup html-content-extraction

07.10.2023

Извлечение ссылок в Perl с помощью TreeBuilder

Я работаю над скриптом, чтобы извлечь кучу информации в один файл HTML. Однако у меня возникли трудности с извлечением ТОЛЬКО определенного набора ссылок с рассматриваемой страницы. Вот примерная структура сайта. Между разделом внутреннего...

571 просмотров

perl html-content-extraction mechanize www-mechanize html-treebuilder

04.08.2022

Разделите и извлеките текстовое содержимое из каждого вложенного элемента div на странице.

У меня есть HTML из URL. Чего я хочу добиться, так это извлекать только текстовое содержимое внутри div. Любая идея, если она может быть достигнута. Структура будет похожа на эту <div class="first"> <div class="second"> Some...

149 просмотров

php html-content-extraction

07.10.2023