Вопросы по теме 'html-parser'

Как преобразовать документ, созданный в Jsoup (парсер Java html), в строку
У меня есть документ, сделанный в jsoup, который выглядит так Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); Как мне преобразовать это doc в строку.
26534 просмотров
schedule 02.12.2022

Создание собственного HTML-парсера
Я знаю этот пост , я его уже читал, но все же я хотел бы узнать, какой язык (может) использовать парсер html? Я имею в виду, анализирует ли он весь исходный код с помощью регулярного выражения или использует обычный язык программирования, такой как...
2831 просмотров
schedule 02.08.2023

Передача значения cookie с использованием HTTP::Cookie в Perl
Мне нужно войти на сайт, проанализировать HTML-страницу и извлечь значение между определенным тегом HTML. Я могу сделать это успешно на странице, которая не требует данных для входа. Я использую класс HTML::Parser. LWP::UserAgent предоставляет...
2792 просмотров

Есть ли стандартный HTML-парсер Java SE? Если да, то зачем использовать нестандартные?
Мне нужно разобрать простую HTML-страницу с простой формой. Ответы на подобные вопросы на StackOverflow предлагают использовать одну из множества нестандартных библиотек Java, таких как TagSoup, JSoup, HTMLParser и многие другие. Однако поиск в...
2888 просмотров
schedule 27.02.2023

Почему JSoup неправильно анализирует мой HTML-код?
Я пытаюсь проанализировать веб-страницу, но когда я хочу получить фрагмент текста на странице. Jsoup дает мне неправильный документ, когда я вызываю методы Jsoup.parse() и Jsoup.connect().get(). Это часть веб-страницы и моего кода. doc var имеет...
476 просмотров
schedule 02.06.2022

Получить строку из асинхронной задачи Android
Как получить строку из AsyncTask? Я использую jsoup для извлечения контента из URL-адреса. В приведенном ниже случае у меня есть содержимое, но мне не удалось поместить его в строку getItembody. Код: private String content; private...
403 просмотров
schedule 05.01.2024

Парсер HTML для Titanium Mobile
Я ищу простой в реализации модуль (или функцию) для Appcelerator Titanium Mobile, который мог бы анализировать html-код (удаляя ненужные теги и очищая код) и выплевывая только содержимое. Я знаю, что есть возможность использовать веб-просмотр в...
1627 просмотров
schedule 25.11.2023

Ускорение селекторов CsQuery с помощью подстроки html
Я хочу проанализировать некоторые сложные/тяжелые HTML-страницы. Недавно я прочитал о CsQuery и проверил сравнение производительности CsQuery и Html Agility. Упакуйте и выдохните . Согласно этим тестам, CsQuery оказывается медленнее при создании...
1003 просмотров

Попытка получить свойство не-объекта (разбор)
У меня проблема с парсингом, мне нужно получить ссылку на фото, но ошибка в коде. Произошла ошибка PHP Серьезность: уведомление: попытка получить свойство не-объекта Имя файла: views/varle2_view.php Номер строки: 25 <h2>Telefonai...
899 просмотров
schedule 14.05.2023

Преобразование списка HTML во вложенный список Python
Если у меня есть вложенный список html (неупорядоченный), который выглядит так: <ul> <li><a href="Page1_Level1.html">Page1_Level1</a> <ul> <li><a...
2626 просмотров

Извлечение данных с помощью HTMLParser
<tr> <td style="color: #0000FF;text-align: center"><p>Sam<br/>John<br/></p></td> </tr> Я использую модуль python HTMLParser для извлечения значений Sam и John из приведенного ниже html, но...
1300 просмотров
schedule 01.07.2023

Извлечь данные из "e под тегом title с помощью BeautifulSoup?
Я хочу извлечь заголовок ссылки после получения ее HTML через библиотеку BeautifulSoup в python. По сути, весь тег title <title>Imaan Z Hazir on Twitter: &quot;Guantanamo and Abu Ghraib, financial and military support to dictators in...
1067 просмотров

Не получается точный текст от BeautifulSoup
Я пытаюсь получить точный текст со страницы HTML, но выходной текст отличается от ожидаемого текста. текст на HTML-странице Салнас 14 текстовое шоу от BeautifulSoup ĐĄĐ°ĐťĐ˝Đ°Ń 14 Мой код page =...
118 просмотров
schedule 07.11.2022

RegEx для захвата значения атрибута в элементе HTML
У меня проблема с извлечением текста в теге html с помощью регулярного выражения. Я хочу извлечь текст из следующего html-кода. <a href="http://google.com/" target="_self" title="TEXTDATA" class="encyclopedia">Google</a>...
42 просмотров

Visual Studio, установить расширение pylint не удается: AttributeError: объект 'HTMLParser' не имеет атрибута unescape
Невозможно установить некоторые расширения, например pylint или rope , всегда заканчивающиеся на AttributeError: 'HTMLParser' object has no attribute 'unescape' Контекст платформы: $ lsb_release -a Distributor ID: Ubuntu Description:...
102 просмотров