Я работаю над проектом, который включает преобразование большого количества содержимого HTML в обычный/текст. У меня есть специально написанный модуль, который делает свою работу нормально, но мне интересно, есть ли какие-то стандартные инструменты, которые помогут выполнить эту работу.
Лучший способ конвертировать HTML в обычный текст с помощью Python
Ответы (2)
Html2Text кажется хорошим вариантом
person
Chris Ballance
schedule
03.11.2009
Сайт больше не доступен, так как Аарона, автора больше нет.
- person black_puppydog; 10.04.2013
Вот библиотека Python, которая анализирует HTML:
BeautifulSoup — еще один вариант.
person
tcarobruce
schedule
03.11.2009
Чтобы сэкономить время другим, возвращаясь от Google обратно к SO, вот вопросы и ответы, описывающие, что Beautiful Soup больше не поддерживается: WebScraping с помощью BeautifulSoup или LXML.HTML.
- person sage; 14.07.2011
Я думаю, теперь Beautiful Soup поддерживается.
- person contrebis; 29.11.2012