В настоящее время я работаю над потоковым API, который генерирует много текстового контента. Как и ожидалось, API выдает много дубликатов, и у нас также есть бизнес-требование фильтровать почти дублирующиеся данные.
Я немного изучил обнаружение дубликатов в потоках данных и прочитал о Стабильные фильтры Блума. Стабильные фильтры Блума — это структуры данных для обнаружения дубликатов в потоках данных с верхней границей частоты ложных срабатываний.
Но я хочу идентифицировать близкие дубликаты, и я также рассмотрел алгоритмы хеширования, такие как LSH и MinHash, которые используются в задачах с ближайшими соседями и обнаружении близких дубликатов.
Я как бы застрял и ищу указатели о том, как действовать, и документы/реализации, на которые я мог бы посмотреть?