Вопросы по теме 'bloom-filter'

Современный высокопроизводительный фильтр Блума в Python?
Я ищу реализацию фильтра Блума производственного качества в Python для обработки довольно большого количества элементов (скажем, от 100 до 1 миллиарда элементов с 0,01% ложных срабатываний). Pybloom — один из вариантов, но он, кажется, показывает...
16620 просмотров
schedule 06.02.2024

Несколько вопросов о реализации фильтра Блума
Недавно я обнаружил сайт, который устанавливает определенные кодовые ката. Одно из Ката привлекло мое внимание и заставило меня изучить фильтры Блума. Я использую PHP и MySql. У меня есть таблица с примерно 45 000 слов, которая действует как...
1081 просмотров

Использование хэш-функций с фильтрами Блума
Фильтр Блума использует хэш-функцию (или несколько) для генерации значения от 0 до m с учетом входной строки X. Мой вопрос заключается в том, как использовать хеш-функцию для генерации значения таким образом, например, хеш-код MD5 обычно представлен...
2174 просмотров
schedule 10.09.2022

Быстрые фильтры Блума в C-64bit Ints, высокочастотный цикл Initialize/Query/Destroy
Мне нужна реализация фильтра Блума для части большого проекта. Весь проект написан на C (и только на C! Никакого C++), и, к сожалению, мне не удалось найти достойных реализаций фильтра Блума на основе C (кроме доказательство концепции реализации )....
4109 просмотров
schedule 12.07.2022

Быстрый способ найти строку, связанную с данным Guid, во многих базах данных и таблицах SQL.
У меня есть несколько баз данных SQL, каждая из которых содержит множество таблиц. Они преимущественно имеют случайно сгенерированные идентификаторы в качестве первичных ключей строк. Я хотел бы найти способ найти данные таблицы и строки, связанные...
317 просмотров

Какие методы хеширования использовать при создании фильтра Блума в clojure?
Я хочу создать фильтр Блума в Clojure, но у меня мало знаний обо всех библиотеках хеширования, которые могут быть доступны для языков на основе JVM. Что я должен использовать для самой быстрой (в отличие от самой точной) реализации карты цветения в...
3558 просмотров
schedule 09.06.2023

Почти обнаружение дубликатов в потоках данных
В настоящее время я работаю над потоковым API, который генерирует много текстового контента. Как и ожидалось, API выдает много дубликатов, и у нас также есть бизнес-требование фильтровать почти дублирующиеся данные. Я немного изучил обнаружение...
2122 просмотров

Как замаскировать целые числа с помощью побитовых операторов
Мне было интересно, есть ли способ замаскировать список значений int с помощью побитовых операторов и использовать эту маску, чтобы узнать, является ли значение int одним из значений, которые находятся в маске. то есть, если у меня есть значения...
1499 просмотров

Эффективная реализация фильтра Блума в C?
Этот вопрос уже задавался ранее, но на тот момент ответа на него не было, поэтому я решил задать его снова. Мне нужна эффективная реализация фильтра Блума на C (не на C++). Если такой вещи нет, я был бы не против реализовать ее, если бы у меня...
13619 просмотров
schedule 15.02.2023

Как сопоставить вывод хеш-функции с индексами фильтра цветения?
Может ли кто-нибудь помочь мне, предоставив схему того, как вывод хеш-функции сопоставляется с индексами фильтра Блума? Вот обзор фильтров цветения .
815 просмотров
schedule 31.10.2022

Вычисление подмножества списка целых чисел
В настоящее время я реализую алгоритм, в котором один конкретный шаг требует от меня вычисления подмножеств следующим образом. Представьте, что у меня есть наборы (возможно, миллионы) целых чисел. Где каждый набор потенциально может содержать...
344 просмотров
schedule 14.07.2022

какой интерес твиттера к абстрактной алгебре?
Зачем такой компании, как Twitter, интерес к алгебраическим понятиям, таким как группы, моноиды и кольца. https://github.com/twitter/algebird Все, что я смог найти, это: Реализации моноидов для интересных алгоритмов аппроксимации, таких...
1030 просмотров
schedule 28.03.2022

неповторяющиеся случайные числа
Мне нужно сгенерировать около 9-100 миллионов неповторяющихся случайных чисел, от нуля до количества сгенерированных чисел, и мне нужно, чтобы они генерировались очень быстро. В нескольких ответах на похожие вопросы предлагалось просто перетасовать...
769 просмотров

Какую хеш-функцию использовать для блум-фильтра с 128-битными ключами?
https://github.com/joeyrobert/bloomfilter использует класс Random для хэш-функции, которая является убийца производительности . Я пытаюсь ввести класс с byte [] s вместо общего аргумента (T) и избавиться от private int Hash(T item) {...
2225 просмотров
schedule 31.05.2022

Являются ли разные соленые хэши эквивалентными разным алгоритмам хеширования для фильтра Блума?
По мере того, как ваш набор данных становится больше, вам нужно больше алгоритмов хеширования, чтобы поддерживать низкий уровень ложных срабатываний на уровне 1%. Если я хочу, чтобы мой фильтр Блума динамически рос во время выполнения, неизвестно,...
196 просмотров
schedule 29.05.2023

Дизайн ключа строки HBase для чтения и обновления
Я пытаюсь понять, как лучше всего создать ключ для моей таблицы HBase. Мой вариант использования: Структура прямо сейчас PersonID | BatchDate | PersonJSON Когда что-то в человеке изменяется, в Hbase вставляются новый PersonJSON и новый...
598 просмотров
schedule 07.08.2023

Будет ли фильтр Блума всегда возвращать ложные срабатывания при определенных условиях?
Предположим, что API-интерфейс фильтра Блума имеет 2 параметра: 1. количество битов в фильтре Блума (n) и 2. ожидаемое количество вставок (m). Вопрос: Будет ли m > n всегда приводить к complete ложным срабатываниям? Под complete я хочу...
154 просмотров

интегрировать фильтр Choco и Bloom
Теперь я собираюсь интегрировать Choco и фильтр Bloom. Проблема в том, что я хочу знать, какой файл JAVA в Choco относится к процессу поиска, потому что я хочу сохранять решения каждого узла в фильтре Блума после каждого шага поиска. исходный код...
86 просмотров
schedule 26.07.2023

Фильтры Блума для определения того, какие наборы в семействе являются подмножествами данного набора.
Я пытаюсь использовать фильтр Блума, чтобы определить, какие наборы из семейства наборов A1 , A2 ,..., Am являются подмножествами другого фиксированного набора Q . Я надеюсь, что кто-то может проверить правильность изложенного подхода или...
332 просмотров
schedule 28.08.2022

Почему фильтры Блума используют один и тот же массив для всех k алгоритмов хэширования
Я понимаю, что для того, чтобы уменьшить вероятность коллизии одного хэша и привести к ложноположительному результату Блума, фильтры используют несколько (k) хэшей. Не было бы более выгодно использовать k массивов, по одному для каждого алгоритма...
289 просмотров
schedule 29.04.2022