Некоторое время назад я написал небольшой скрипт используя Text::DeDupe, чтобы удалить дубликаты сообщений в блоге до того, положить на них глаз.
После прочтения документа Синтаксическая кластеризация Интернета, в котором реализация основана, я хотел бы иметь возможность находить перекрывающиеся документы (например, фрагменты блогов, а не полный текст, возможно, также цитаты).
Знаете ли вы какую-либо другую реализацию на C, C++ или Perl, которую я мог бы попробовать, прежде чем писать свою собственную?