Как Evernote Web Clipper так хорошо анализирует веб-страницы?

Я пытался воспроизвести возможности синтаксического анализа Evernote Web Clipper в python для своих собственных веб-проектов. Меня интересует только извлечение основного текста, ничего больше.

Я использовал оба порта Python Arc90:

https://github.com/buriy/python-readability

в сочетании с замечательной библиотекой html2text от aaronsw:

https://github.com/aaronsw/html2text

и это дает хорошие результаты большую часть времени, но Evernote намного лучше очищает основную часть текста.

Может ли кто-нибудь порекомендовать лучший подход или, возможно, рассказать мне, что делает Evernote.

Спасибо!


person vgoklani    schedule 11.02.2013    source источник
comment
Извините, но я думаю, что ваш вопрос слишком расплывчатый и слишком широкий, чтобы на него можно было ответить здесь, на SO; см. часто задаваемые вопросы. Если у вас есть более конкретные проблемы (желательно связанные с кодом), не стесняйтесь спрашивать их!   -  person Martijn Pieters    schedule 12.02.2013
comment
Я не согласен, что это слишком расплывчато. Я прошу подход, который обычно используется для очистки веб-страниц и получения результатов, сравнимых с Evernote. Для меня этот вопрос очень специфичен.   -  person vgoklani    schedule 12.02.2013
comment
@Vishal Мы даже не знаем, какие результаты можно сравнить с Evernote. Вы должны дать более конкретные требования.   -  person wRAR    schedule 12.02.2013
comment
Оформление заказа: stackoverflow.com/a/24860961/88597   -  person ohho    schedule 12.10.2015