Лучший способ конвертировать HTML в обычный текст с помощью Python

Я работаю над проектом, который включает преобразование большого количества содержимого HTML в обычный/текст. У меня есть специально написанный модуль, который делает свою работу нормально, но мне интересно, есть ли какие-то стандартные инструменты, которые помогут выполнить эту работу.


person Brian Tol    schedule 03.11.2009    source источник


Ответы (2)


Html2Text кажется хорошим вариантом

person Chris Ballance    schedule 03.11.2009
comment
Сайт больше не доступен, так как Аарона, автора больше нет. - person black_puppydog; 10.04.2013

Вот библиотека Python, которая анализирует HTML:

BeautifulSoup — еще один вариант.

person tcarobruce    schedule 03.11.2009
comment
Чтобы сэкономить время другим, возвращаясь от Google обратно к SO, вот вопросы и ответы, описывающие, что Beautiful Soup больше не поддерживается: WebScraping с помощью BeautifulSoup или LXML.HTML. - person sage; 14.07.2011
comment
Я думаю, теперь Beautiful Soup поддерживается. - person contrebis; 29.11.2012