Вопросы по теме 'html-parsing'
Нужна помощь по синтаксису python lxml для разбора html
Я новичок в python, и мне нужна помощь с синтаксисом для поиска и повторения тегов html с использованием lxml. Вот варианты использования, с которыми я имею дело:
HTML-файл довольно хорошо сформирован (но не идеален). Имеет несколько таблиц на...
12628 просмотров
schedule
21.06.2023
Как я могу удалить атрибуты из тега html?
Как я могу использовать php для удаления всех/любых атрибутов из тега, скажем, из тега абзаца?
<p class="one" otherrandomattribute="two"> to <p>
20295 просмотров
schedule
08.07.2023
jQuery-подобный интерфейс для PHP?
Мне было любопытно, существует ли интерфейс/библиотека в стиле jQuery для PHP для обработки файлов HTML/XML, в частности, с использованием стиля jQuery селекторы .
Я хотел бы делать такие вещи (все гипотетически):
foreach (j("div > p > a") as...
20517 просмотров
schedule
01.07.2023
Загрузка веб-страницы для анализа в Rails
Предположим, я хочу получить страницу из Интернета в свое приложение и выполнить с ней какой-то анализ. Как я могу это сделать? С чего мне начать? Должны ли требоваться какие-то плагины/драгоценные камни? Какова ваша обычная практика решения...
2405 просмотров
schedule
06.04.2022
Почему я могу получить HTML только для главной страницы веб-сайта, а не для других?
Я пишу Java-программу, которая подключается к веб-сайту и возвращает HTML, по какой-то причине у меня возникают проблемы с этим. Прямо сейчас я могу получить доступ к веб-сайту, только если я
//example String host = "www.google.com"
но...
188 просмотров
schedule
19.04.2023
Заставить BeautifulSoup игнорировать содержимое внутри тегов скрипта
Я пытался заставить BeautifulSoup (3.1.0.1) анализировать html-страницу с большим количеством javascript, который генерирует html внутри тегов. Один примерный фрагмент выглядит так:
<html><head><body><div>
<script...
1740 просмотров
schedule
27.02.2023
Библиотека С# для очистки html
Мне было интересно, есть ли в .Net библиотека для очистки и удаления незакрытых тегов в html-документе?
5116 просмотров
schedule
18.12.2022
Разбор HTML для получения содержимого с помощью C#
Я пишу приложение, которое сканирует группу моих веб-страниц. Вместо того, чтобы брать весь исходный код страницы, я хотел бы взять весь контент и сохранить его, а также иметь возможность хранить страницу в виде простого текста в базе данных....
56340 просмотров
schedule
11.12.2022
Библиотека Java для анализа HTML
(Я видел похожие вопросы, но я думаю, что ни один из них не отвечает моим конкретным потребностям, поэтому...)
Я хотел бы знать, существует ли библиотека Java для анализа реального (читай: неполного, неправильно сформированного) HTML. Под анализом...
1864 просмотров
schedule
25.12.2022
Сопоставление всего между тегами html ‹body› с использованием PHP
У меня есть скрипт, который возвращает следующее в переменной с именем $content
<body>
<p><span class=\"c-sc\">dgdfgdf</span></p>
</body>
Однако мне нужно поместить все между тегом body внутри массива с...
12943 просмотров
schedule
21.08.2023
j2me читает html по-разному между WTK и устройством
Я создал мобильное приложение на J2ME, и оно считывает данные с веб-сайта. В WTK (беспроводной инструментарий) теперь все работает, но когда я тестирую приложение Samen на своем мобильном (nokia) устройстве, оно ведет себя по-другому: возвращает...
593 просмотров
schedule
25.11.2023
Пакет гибкости HTML
У меня есть таблицы html на одной веб-странице, например
<table border=1>
<tr><td>sno</td><td>sname</td></tr>
<tr><td>111</td><td>abcde</td></tr>...
7527 просмотров
schedule
02.04.2022
Какой лучший пакет HTML Tidy Pack? Есть ли в пакете HTML agility возможность сделать HTML-страницу аккуратной?
Я использую html agility pack для анализа табличной информации . Теперь есть HTML-контент с отсутствующими конечными тегами и с такой страницы из-за отсутствия конечных тегов html agility pack не анализирует информацию должным образом. Поэтому я...
6448 просмотров
schedule
19.10.2023
Очиститель HTML: условное удаление элемента на основе его атрибутов
В соответствии с смоктестом HTML Purifier , "неверные" URI иногда отбрасываются, чтобы оставить после себя тег привязки без атрибутов, например
<a href="javascript:document.location='http://www.google.com/'">XSS</a> становится...
3638 просмотров
schedule
06.04.2022
Как разобрать искаженный HTML в python, используя стандартные библиотеки
В Python встроено так много html и xml библиотек , что трудно поверить, поддержка реального синтаксического анализа HTML.
Я нашел множество отличных сторонних библиотек для этой задачи, но этот вопрос касается стандартной библиотеки python....
12042 просмотров
schedule
02.02.2023
Параграф Haskell Parse и элемент em с Parsec
Я использую Text. ParserCombinators.Parsec и Text.XHtml для анализа ввода следующим образом:
this is the beginning of the paragraph --this is an emphasized text-- and this is the end\n
И мой вывод должен быть:
<p>this is the...
366 просмотров
schedule
08.05.2024
анализировать html-таблицу с помощью ASP.NET
Мне нужно прочитать html-страницу и проанализировать в ней содержимое таблицы. Я использую ASP.NET. Может ли кто-нибудь сказать мне, как это сделать. Спасибо.
1304 просмотров
schedule
07.02.2023
С#: HtmlAgilityPack извлекает внутренний текст
Я использую HtmlAgilityPack. Есть ли однострочный код, с помощью которого я могу получить весь внутренний текст html, например, удалить все теги и скрипты html?
16306 просмотров
schedule
08.03.2022
Советы по разбору HTML и вождению в Интернете с помощью clojure?
Я хочу автоматизировать заполнение данных на сайте с помощью clojure.
Для этого я хочу запрашивать элементы веб-страниц и создавать http-запросы. Я рассматривал использование HttpUnit и contrib.clojure.zip-filter.xml. Пока ни один из подходов не...
2135 просмотров
schedule
07.04.2023
Есть ли встроенная поддержка или собственная библиотека в .net для разбора html-файла?
Почему html agility pack используется для анализа информации из html файла? Нет ли встроенной или собственной библиотеки в .net для анализа информации из html-файла? Если да, то в чем проблема со встроенной поддержкой? Каковы преимущества...
151 просмотров
schedule
01.10.2022