Публикации по тегам html-parser [java, html-parsing, jsoup, html-parser, parsing]

Вопросы по теме 'html-parser'

Как преобразовать документ, созданный в Jsoup (парсер Java html), в строку

У меня есть документ, сделанный в jsoup, который выглядит так Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); Как мне преобразовать это doc в строку.

26534 просмотров

02.12.2022

Создание собственного HTML-парсера

Я знаю этот пост , я его уже читал, но все же я хотел бы узнать, какой язык (может) использовать парсер html? Я имею в виду, анализирует ли он весь исходный код с помощью регулярного выражения или использует обычный язык программирования, такой как...

2831 просмотров

parsing regex html-parsing html-parser

02.08.2023

Передача значения cookie с использованием HTTP::Cookie в Perl

Мне нужно войти на сайт, проанализировать HTML-страницу и извлечь значение между определенным тегом HTML. Я могу сделать это успешно на странице, которая не требует данных для входа. Я использую класс HTML::Parser. LWP::UserAgent предоставляет...

2792 просмотров

session-cookies perl html-parser lwp-useragent

01.06.2024

Есть ли стандартный HTML-парсер Java SE? Если да, то зачем использовать нестандартные?

Мне нужно разобрать простую HTML-страницу с простой формой. Ответы на подобные вопросы на StackOverflow предлагают использовать одну из множества нестандартных библиотек Java, таких как TagSoup, JSoup, HTMLParser и многие другие. Однако поиск в...

2888 просмотров

java html html-parsing html-parser

27.02.2023

Почему JSoup неправильно анализирует мой HTML-код?

Я пытаюсь проанализировать веб-страницу, но когда я хочу получить фрагмент текста на странице. Jsoup дает мне неправильный документ, когда я вызываю методы Jsoup.parse() и Jsoup.connect().get(). Это часть веб-страницы и моего кода. doc var имеет...

476 просмотров

android jsoup html-parser

02.06.2022

Получить строку из асинхронной задачи Android

Как получить строку из AsyncTask? Я использую jsoup для извлечения контента из URL-адреса. В приведенном ниже случае у меня есть содержимое, но мне не удалось поместить его в строку getItembody. Код: private String content; private...

403 просмотров

android jsoup html-parser

05.01.2024

Парсер HTML для Titanium Mobile

Я ищу простой в реализации модуль (или функцию) для Appcelerator Titanium Mobile, который мог бы анализировать html-код (удаляя ненужные теги и очищая код) и выплевывая только содержимое. Я знаю, что есть возможность использовать веб-просмотр в...

1627 просмотров

javascript html-parser titanium-mobile

25.11.2023

Ускорение селекторов CsQuery с помощью подстроки html

Я хочу проанализировать некоторые сложные/тяжелые HTML-страницы. Недавно я прочитал о CsQuery и проверил сравнение производительности CsQuery и Html Agility. Упакуйте и выдохните . Согласно этим тестам, CsQuery оказывается медленнее при создании...

1003 просмотров

html web-scraping html-parsing html-parser csquery

02.11.2022

Попытка получить свойство не-объекта (разбор)

У меня проблема с парсингом, мне нужно получить ссылку на фото, но ошибка в коде. Произошла ошибка PHP Серьезность: уведомление: попытка получить свойство не-объекта Имя файла: views/varle2_view.php Номер строки: 25 <h2>Telefonai...

899 просмотров

php parsing html-parsing html-parser

14.05.2023

Преобразование списка HTML во вложенный список Python

Если у меня есть вложенный список html (неупорядоченный), который выглядит так: <ul> <li><a href="Page1_Level1.html">Page1_Level1</a> <ul> <li><a...

2626 просмотров

python html beautifulsoup html-parsing html-parser

15.02.2023

Извлечение данных с помощью HTMLParser

<tr> <td style="color: #0000FF;text-align: center"><p>Sam<br/>John<br/></p></td> </tr> Я использую модуль python HTMLParser для извлечения значений Sam и John из приведенного ниже html, но...

1300 просмотров

python html html-parsing html-parser

01.07.2023

Извлечь данные из "e под тегом title с помощью BeautifulSoup?

Я хочу извлечь заголовок ссылки после получения ее HTML через библиотеку BeautifulSoup в python. По сути, весь тег title <title>Imaan Z Hazir on Twitter: "Guantanamo and Abu Ghraib, financial and military support to dictators in...

1067 просмотров

python beautifulsoup css-selectors html-parser

24.02.2024

Не получается точный текст от BeautifulSoup

Я пытаюсь получить точный текст со страницы HTML, но выходной текст отличается от ожидаемого текста. текст на HTML-странице Салнас 14 текстовое шоу от BeautifulSoup ĐĄĐ°ĐťĐ˝Đ°Ń 14 Мой код page =...

118 просмотров

python beautifulsoup html-parser

07.11.2022

RegEx для захвата значения атрибута в элементе HTML

У меня проблема с извлечением текста в теге html с помощью регулярного выражения. Я хочу извлечь текст из следующего html-кода. <a href="http://google.com/" target="_self" title="TEXTDATA" class="encyclopedia">Google</a>...

42 просмотров

html regex html-parsing regex-greedy html-parser

30.05.2023

Visual Studio, установить расширение pylint не удается: AttributeError: объект 'HTMLParser' не имеет атрибута unescape

Невозможно установить некоторые расширения, например pylint или rope , всегда заканчивающиеся на AttributeError: 'HTMLParser' object has no attribute 'unescape' Контекст платформы: $ lsb_release -a Distributor ID: Ubuntu Description:...

102 просмотров

visual-studio escaping extension-methods pylint html-parser

18.09.2022