Я хотел бы извлечь текст из файла HTML с помощью Python. Мне нужен практически такой же результат, как если бы я скопировал текст из браузера и вставил его в блокнот.
Я бы хотел что-то более надежное, чем использование регулярных выражений, которые могут дать сбой в плохо сформированном HTML. Я видел, как многие рекомендуют Beautiful Soup, но у меня было несколько проблем с его использованием. Во-первых, он улавливал нежелательный текст, такой как исходный код JavaScript. Кроме того, он не интерпретировал объекты HTML. Например, я ожидал, что 'в исходном HTML-коде будет преобразован в апостроф в тексте, как если бы я вставил содержимое браузера в блокнот.
Обновление html2text
выглядит многообещающим. Он правильно обрабатывает объекты HTML и игнорирует JavaScript. Однако это не совсем простой текст; он производит уценку, которая затем должна быть преобразована в обычный текст. В нем нет примеров или документации, но код выглядит чистым.
Связанные вопросы: