Мне нужно проанализировать около 100 КБ данных HTML, и это просто вызывает огромные проблемы с производительностью на Android. Я пробовал как встроенный XML-парсер, так и JTidy.
Встроенный синтаксический анализатор XML дает мне время синтаксического анализа около полсекунды, с чем я легко могу жить. Проблема в том, что использовать XML-синтаксический анализатор для разбора беспорядочного HTML-кода - плохая идея, для тех, кому это не подходит. (Я пробовал предварительную обработку, но он даже начал жаловаться на правильный HTML, так что ...)
Я немного погуглил, и JTidy был предложен для очистки кода перед передачей его синтаксическому анализатору XML. Это был абсолютный кошмар, поскольку предварительный анализ JTidy теперь занимает примерно 7 секунд.
Итак, теперь моя единственная альтернатива - регулярное выражение. Что вы думаете?