Преобразование txt, содержащего HTML, в обычный текст

Я пытаюсь найти инструмент для анализа файла TXT, содержащего html, в обычный текст, сохраняя при этом его форматирование, списки и т.д.

Мне удалось найти этот http://jsoup.org/apidocs/org/jsoup/examples/HtmlToPlainText.html, который отлично работает. Единственная проблема в том, что он читает URL, а не файл. Я пытался внести некоторые изменения в код, но безуспешно

Может ли кто-нибудь указать мне правильное направление, как заставить его читать мой текстовый файл в качестве входных данных?


person superzampa    schedule 26.01.2016    source источник


Ответы (1)


Вы можете начать изучение исходного кода примера программы: https://github.com/jhy/jsoup/blob/master/src/main/java/org/jsoup/examples/HtmlToPlainText.java

Довольно легко загрузить html из файла вместо URL. JSoup может легко разобрать строку.

Пример

String fileName = "YOURFILE.htm";
Scanner scanner = new Scanner( new File(fileName) );
String content = scanner.useDelimiter("\\A").next();
scanner.close() // Put this call in a finally block

Document doc = Jsoup.parse(content);
//do whatever with the JSoup document
person luksch    schedule 26.01.2016
comment
Я попытался немного изменить код, но проблема в том, что он создает объект документа для чтения из URL-адреса, используя несколько функций различных классов, и вместо этого я не смог прочитать файл. я попытался передать локальный файл как URL-адрес с префиксом file:///, но он принимает только HTTP и HTTPS - person superzampa; 27.01.2016