Вопросы по теме 'html-content-extraction'
Извлечение текста из файла HTML с помощью Python
Я хотел бы извлечь текст из файла HTML с помощью Python. Мне нужен практически такой же результат, как если бы я скопировал текст из браузера и вставил его в блокнот.
Я бы хотел что-то более надежное, чем использование регулярных выражений,...
422710 просмотров
schedule
15.06.2023
Как написать регулярное выражение для разбора html?
Я пытаюсь написать регулярное выражение для моего парсера html.
Я хочу сопоставить тег html с заданным атрибутом (например, <div> с class="tab news selected" ), который содержит один или несколько тегов <a href> . Регулярное...
4901 просмотров
schedule
13.04.2023
Получение BeautifulSoup для поиска определенного ‹p›
Я пытаюсь собрать базовый парсер HTML для различных веб-сайтов научных журналов, в частности, пытаясь получить реферат или вводный абзац.
В настоящее время я работаю над журналом Nature, а статью, которую я использовал в качестве образца, можно...
9619 просмотров
schedule
10.02.2023
jQuery: получение / парсинг контента с разных сайтов
Я бы хотел сделать следующее: собирать новости с нескольких сайтов, разбирать их контент с помощью селекторов jQuery и показывать их на одной странице.
Как это можно было сделать с помощью jQuery?
Спасибо.
1820 просмотров
schedule
11.07.2023
Как я могу найти ленту или XML определенного источника новостей
Я хочу получить xml-файл определенного источника новостей, если есть какой-либо проект, который преобразует html-новости в xml, анализируя страницу и токенизируя ее различные характеристики, такие как дата, имя автора, заголовок, контент и т. Д., В...
133 просмотров
schedule
15.04.2023
лучший способ извлечь информацию из сети delphi
Я хочу знать, есть ли лучший способ извлечения информации с веб-страницы, чем анализ HTML того, что я ищу. т. е. Извлечение рейтинга фильма из imdb.com.
В настоящее время я использую компоненты IndyHttp для получения страницы, и я использую...
4829 просмотров
schedule
10.07.2022
Очистка текстовой строки после получения основного текста с помощью Beautifulsoup
Я пытаюсь получить текст из статей на разных веб-страницах и написать их как чистые текстовые документы. Мне не нужен весь видимый текст, потому что он часто включает нерелевантные ссылки сбоку веб-страницы. Я использую Beautifulsoup для извлечения...
4832 просмотров
schedule
07.10.2023
Извлечение ссылок в Perl с помощью TreeBuilder
Я работаю над скриптом, чтобы извлечь кучу информации в один файл HTML. Однако у меня возникли трудности с извлечением ТОЛЬКО определенного набора ссылок с рассматриваемой страницы.
Вот примерная структура сайта. Между разделом внутреннего...
571 просмотров
schedule
04.08.2022
Разделите и извлеките текстовое содержимое из каждого вложенного элемента div на странице.
У меня есть HTML из URL. Чего я хочу добиться, так это извлекать только текстовое содержимое внутри div. Любая идея, если она может быть достигнута. Структура будет похожа на эту
<div class="first">
<div class="second">
Some...
149 просмотров
schedule
07.10.2023