Я пытался воспроизвести возможности синтаксического анализа Evernote Web Clipper в python для своих собственных веб-проектов. Меня интересует только извлечение основного текста, ничего больше.
Я использовал оба порта Python Arc90:
https://github.com/buriy/python-readability
в сочетании с замечательной библиотекой html2text от aaronsw:
https://github.com/aaronsw/html2text
и это дает хорошие результаты большую часть времени, но Evernote намного лучше очищает основную часть текста.
Может ли кто-нибудь порекомендовать лучший подход или, возможно, рассказать мне, что делает Evernote.
Спасибо!