Вопросы по теме 'html-parsing'

Нужна помощь по синтаксису python lxml для разбора html
Я новичок в python, и мне нужна помощь с синтаксисом для поиска и повторения тегов html с использованием lxml. Вот варианты использования, с которыми я имею дело: HTML-файл довольно хорошо сформирован (но не идеален). Имеет несколько таблиц на...
12628 просмотров
schedule 21.06.2023

Как я могу удалить атрибуты из тега html?
Как я могу использовать php для удаления всех/любых атрибутов из тега, скажем, из тега абзаца? <p class="one" otherrandomattribute="two"> to <p>
20295 просмотров
schedule 08.07.2023

jQuery-подобный интерфейс для PHP?
Мне было любопытно, существует ли интерфейс/библиотека в стиле jQuery для PHP для обработки файлов HTML/XML, в частности, с использованием стиля jQuery селекторы . Я хотел бы делать такие вещи (все гипотетически): foreach (j("div > p > a") as...
20517 просмотров
schedule 01.07.2023

Загрузка веб-страницы для анализа в Rails
Предположим, я хочу получить страницу из Интернета в свое приложение и выполнить с ней какой-то анализ. Как я могу это сделать? С чего мне начать? Должны ли требоваться какие-то плагины/драгоценные камни? Какова ваша обычная практика решения...
2405 просмотров
schedule 06.04.2022

Почему я могу получить HTML только для главной страницы веб-сайта, а не для других?
Я пишу Java-программу, которая подключается к веб-сайту и возвращает HTML, по какой-то причине у меня возникают проблемы с этим. Прямо сейчас я могу получить доступ к веб-сайту, только если я //example String host = "www.google.com" но...
188 просмотров
schedule 19.04.2023

Заставить BeautifulSoup игнорировать содержимое внутри тегов скрипта
Я пытался заставить BeautifulSoup (3.1.0.1) анализировать html-страницу с большим количеством javascript, который генерирует html внутри тегов. Один примерный фрагмент выглядит так: <html><head><body><div> <script...
1740 просмотров
schedule 27.02.2023

Библиотека С# для очистки html
Мне было интересно, есть ли в .Net библиотека для очистки и удаления незакрытых тегов в html-документе?
5116 просмотров
schedule 18.12.2022

Разбор HTML для получения содержимого с помощью C#
Я пишу приложение, которое сканирует группу моих веб-страниц. Вместо того, чтобы брать весь исходный код страницы, я хотел бы взять весь контент и сохранить его, а также иметь возможность хранить страницу в виде простого текста в базе данных....
56340 просмотров
schedule 11.12.2022

Библиотека Java для анализа HTML
(Я видел похожие вопросы, но я думаю, что ни один из них не отвечает моим конкретным потребностям, поэтому...) Я хотел бы знать, существует ли библиотека Java для анализа реального (читай: неполного, неправильно сформированного) HTML. Под анализом...
1864 просмотров
schedule 25.12.2022

Сопоставление всего между тегами html ‹body› с использованием PHP
У меня есть скрипт, который возвращает следующее в переменной с именем $content <body> <p><span class=\"c-sc\">dgdfgdf</span></p> </body> Однако мне нужно поместить все между тегом body внутри массива с...
12943 просмотров
schedule 21.08.2023

j2me читает html по-разному между WTK и устройством
Я создал мобильное приложение на J2ME, и оно считывает данные с веб-сайта. В WTK (беспроводной инструментарий) теперь все работает, но когда я тестирую приложение Samen на своем мобильном (nokia) устройстве, оно ведет себя по-другому: возвращает...
593 просмотров
schedule 25.11.2023

Пакет гибкости HTML
У меня есть таблицы html на одной веб-странице, например <table border=1> <tr><td>sno</td><td>sname</td></tr> <tr><td>111</td><td>abcde</td></tr>...
7527 просмотров

Какой лучший пакет HTML Tidy Pack? Есть ли в пакете HTML agility возможность сделать HTML-страницу аккуратной?
Я использую html agility pack для анализа табличной информации . Теперь есть HTML-контент с отсутствующими конечными тегами и с такой страницы из-за отсутствия конечных тегов html agility pack не анализирует информацию должным образом. Поэтому я...
6448 просмотров

Очиститель HTML: условное удаление элемента на основе его атрибутов
В соответствии с смоктестом HTML Purifier , "неверные" URI иногда отбрасываются, чтобы оставить после себя тег привязки без атрибутов, например <a href="javascript:document.location='http://www.google.com/'">XSS</a> становится...
3638 просмотров
schedule 06.04.2022

Как разобрать искаженный HTML в python, используя стандартные библиотеки
В Python встроено так много html и xml библиотек , что трудно поверить, поддержка реального синтаксического анализа HTML. Я нашел множество отличных сторонних библиотек для этой задачи, но этот вопрос касается стандартной библиотеки python....
12042 просмотров
schedule 02.02.2023

Параграф Haskell Parse и элемент em с Parsec
Я использую Text. ParserCombinators.Parsec и Text.XHtml для анализа ввода следующим образом: this is the beginning of the paragraph --this is an emphasized text-- and this is the end\n И мой вывод должен быть: <p>this is the...
366 просмотров
schedule 08.05.2024

анализировать html-таблицу с помощью ASP.NET
Мне нужно прочитать html-страницу и проанализировать в ней содержимое таблицы. Я использую ASP.NET. Может ли кто-нибудь сказать мне, как это сделать. Спасибо.
1304 просмотров
schedule 07.02.2023

С#: HtmlAgilityPack извлекает внутренний текст
Я использую HtmlAgilityPack. Есть ли однострочный код, с помощью которого я могу получить весь внутренний текст html, например, удалить все теги и скрипты html?
16306 просмотров
schedule 08.03.2022

Советы по разбору HTML и вождению в Интернете с помощью clojure?
Я хочу автоматизировать заполнение данных на сайте с помощью clojure. Для этого я хочу запрашивать элементы веб-страниц и создавать http-запросы. Я рассматривал использование HttpUnit и contrib.clojure.zip-filter.xml. Пока ни один из подходов не...
2135 просмотров
schedule 07.04.2023

Есть ли встроенная поддержка или собственная библиотека в .net для разбора html-файла?
Почему html agility pack используется для анализа информации из html файла? Нет ли встроенной или собственной библиотеки в .net для анализа информации из html-файла? Если да, то в чем проблема со встроенной поддержкой? Каковы преимущества...
151 просмотров