Вопросы по теме 'html-parser'
Как преобразовать документ, созданный в Jsoup (парсер Java html), в строку
У меня есть документ, сделанный в jsoup, который выглядит так
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Как мне преобразовать это doc в строку.
26534 просмотров
schedule
02.12.2022
Создание собственного HTML-парсера
Я знаю этот пост , я его уже читал, но все же я хотел бы узнать, какой язык (может) использовать парсер html? Я имею в виду, анализирует ли он весь исходный код с помощью регулярного выражения или использует обычный язык программирования, такой как...
2831 просмотров
schedule
02.08.2023
Передача значения cookie с использованием HTTP::Cookie в Perl
Мне нужно войти на сайт, проанализировать HTML-страницу и извлечь значение между определенным тегом HTML.
Я могу сделать это успешно на странице, которая не требует данных для входа. Я использую класс HTML::Parser.
LWP::UserAgent предоставляет...
2792 просмотров
schedule
01.06.2024
Есть ли стандартный HTML-парсер Java SE? Если да, то зачем использовать нестандартные?
Мне нужно разобрать простую HTML-страницу с простой формой. Ответы на подобные вопросы на StackOverflow предлагают использовать одну из множества нестандартных библиотек Java, таких как TagSoup, JSoup, HTMLParser и многие другие.
Однако поиск в...
2888 просмотров
schedule
27.02.2023
Почему JSoup неправильно анализирует мой HTML-код?
Я пытаюсь проанализировать веб-страницу, но когда я хочу получить фрагмент текста на странице. Jsoup дает мне неправильный документ, когда я вызываю методы Jsoup.parse() и Jsoup.connect().get().
Это часть веб-страницы и моего кода. doc var имеет...
476 просмотров
schedule
02.06.2022
Получить строку из асинхронной задачи Android
Как получить строку из AsyncTask? Я использую jsoup для извлечения контента из URL-адреса. В приведенном ниже случае у меня есть содержимое, но мне не удалось поместить его в строку getItembody. Код:
private String content;
private...
403 просмотров
schedule
05.01.2024
Парсер HTML для Titanium Mobile
Я ищу простой в реализации модуль (или функцию) для Appcelerator Titanium Mobile, который мог бы анализировать html-код (удаляя ненужные теги и очищая код) и выплевывая только содержимое.
Я знаю, что есть возможность использовать веб-просмотр в...
1627 просмотров
schedule
25.11.2023
Ускорение селекторов CsQuery с помощью подстроки html
Я хочу проанализировать некоторые сложные/тяжелые HTML-страницы. Недавно я прочитал о CsQuery и проверил сравнение производительности CsQuery и Html Agility. Упакуйте и выдохните . Согласно этим тестам, CsQuery оказывается медленнее при создании...
1003 просмотров
schedule
02.11.2022
Попытка получить свойство не-объекта (разбор)
У меня проблема с парсингом, мне нужно получить ссылку на фото, но ошибка в коде. Произошла ошибка PHP Серьезность: уведомление: попытка получить свойство не-объекта Имя файла: views/varle2_view.php Номер строки: 25
<h2>Telefonai...
899 просмотров
schedule
14.05.2023
Преобразование списка HTML во вложенный список Python
Если у меня есть вложенный список html (неупорядоченный), который выглядит так:
<ul>
<li><a href="Page1_Level1.html">Page1_Level1</a>
<ul>
<li><a...
2626 просмотров
schedule
15.02.2023
Извлечение данных с помощью HTMLParser
<tr>
<td style="color: #0000FF;text-align: center"><p>Sam<br/>John<br/></p></td>
</tr>
Я использую модуль python HTMLParser для извлечения значений Sam и John из приведенного ниже html, но...
1300 просмотров
schedule
01.07.2023
Извлечь данные из "e под тегом title с помощью BeautifulSoup?
Я хочу извлечь заголовок ссылки после получения ее HTML через библиотеку BeautifulSoup в python. По сути, весь тег title
<title>Imaan Z Hazir on Twitter: "Guantanamo and Abu Ghraib, financial and military support to dictators in...
1067 просмотров
schedule
24.02.2024
Не получается точный текст от BeautifulSoup
Я пытаюсь получить точный текст со страницы HTML, но выходной текст отличается от ожидаемого текста.
текст на HTML-странице
Салнас 14
текстовое шоу от BeautifulSoup
ĐĄĐ°ĐťĐ˝Đ°Ń 14
Мой код
page =...
118 просмотров
schedule
07.11.2022
RegEx для захвата значения атрибута в элементе HTML
У меня проблема с извлечением текста в теге html с помощью регулярного выражения.
Я хочу извлечь текст из следующего html-кода.
<a href="http://google.com/" target="_self" title="TEXTDATA" class="encyclopedia">Google</a>...
42 просмотров
schedule
30.05.2023
Visual Studio, установить расширение pylint не удается: AttributeError: объект 'HTMLParser' не имеет атрибута unescape
Невозможно установить некоторые расширения, например pylint или rope , всегда заканчивающиеся на
AttributeError: 'HTMLParser' object has no attribute 'unescape'
Контекст платформы:
$ lsb_release -a
Distributor ID: Ubuntu
Description:...
102 просмотров
schedule
18.09.2022