Как Evernote Web Clipper так хорошо анализирует веб-страницы?

Я пытался воспроизвести возможности синтаксического анализа Evernote Web Clipper в python для своих собственных веб-проектов. Меня интересует только извлечение основного текста, ничего больше.

Я использовал оба порта Python Arc90:

https://github.com/buriy/python-readability

в сочетании с замечательной библиотекой html2text от aaronsw:

https://github.com/aaronsw/html2text

и это дает хорошие результаты большую часть времени, но Evernote намного лучше очищает основную часть текста.

Может ли кто-нибудь порекомендовать лучший подход или, возможно, рассказать мне, что делает Evernote.

Спасибо!

vgoklani 11.02.2013 источник

comment

Извините, но я думаю, что ваш вопрос слишком расплывчатый и слишком широкий, чтобы на него можно было ответить здесь, на SO; см. часто задаваемые вопросы. Если у вас есть более конкретные проблемы (желательно связанные с кодом), не стесняйтесь спрашивать их! - Martijn Pieters 12.02.2013

comment

Я не согласен, что это слишком расплывчато. Я прошу подход, который обычно используется для очистки веб-страниц и получения результатов, сравнимых с Evernote. Для меня этот вопрос очень специфичен. - vgoklani 12.02.2013

comment

@Vishal Мы даже не знаем, какие результаты можно сравнить с Evernote. Вы должны дать более конкретные требования. - wRAR 12.02.2013

comment

Оформление заказа: stackoverflow.com/a/24860961/88597 - ohho 12.10.2015

Как Evernote Web Clipper так хорошо анализирует веб-страницы?

Вопросы по теме