Вопросы по теме 'bloom-filter'
Современный высокопроизводительный фильтр Блума в Python?
Я ищу реализацию фильтра Блума производственного качества в Python для обработки довольно большого количества элементов (скажем, от 100 до 1 миллиарда элементов с 0,01% ложных срабатываний).
Pybloom — один из вариантов, но он, кажется, показывает...
16620 просмотров
schedule
06.02.2024
Несколько вопросов о реализации фильтра Блума
Недавно я обнаружил сайт, который устанавливает определенные кодовые ката.
Одно из Ката привлекло мое внимание и заставило меня изучить фильтры Блума.
Я использую PHP и MySql.
У меня есть таблица с примерно 45 000 слов, которая действует как...
1081 просмотров
schedule
23.09.2022
Использование хэш-функций с фильтрами Блума
Фильтр Блума использует хэш-функцию (или несколько) для генерации значения от 0 до m с учетом входной строки X. Мой вопрос заключается в том, как использовать хеш-функцию для генерации значения таким образом, например, хеш-код MD5 обычно представлен...
2174 просмотров
schedule
10.09.2022
Быстрые фильтры Блума в C-64bit Ints, высокочастотный цикл Initialize/Query/Destroy
Мне нужна реализация фильтра Блума для части большого проекта. Весь проект написан на C (и только на C! Никакого C++), и, к сожалению, мне не удалось найти достойных реализаций фильтра Блума на основе C (кроме доказательство концепции реализации )....
4109 просмотров
schedule
12.07.2022
Быстрый способ найти строку, связанную с данным Guid, во многих базах данных и таблицах SQL.
У меня есть несколько баз данных SQL, каждая из которых содержит множество таблиц. Они преимущественно имеют случайно сгенерированные идентификаторы в качестве первичных ключей строк. Я хотел бы найти способ найти данные таблицы и строки, связанные...
317 просмотров
schedule
27.09.2022
Какие методы хеширования использовать при создании фильтра Блума в clojure?
Я хочу создать фильтр Блума в Clojure, но у меня мало знаний обо всех библиотеках хеширования, которые могут быть доступны для языков на основе JVM.
Что я должен использовать для самой быстрой (в отличие от самой точной) реализации карты цветения в...
3558 просмотров
schedule
09.06.2023
Почти обнаружение дубликатов в потоках данных
В настоящее время я работаю над потоковым API, который генерирует много текстового контента. Как и ожидалось, API выдает много дубликатов, и у нас также есть бизнес-требование фильтровать почти дублирующиеся данные.
Я немного изучил обнаружение...
2122 просмотров
schedule
06.02.2024
Как замаскировать целые числа с помощью побитовых операторов
Мне было интересно, есть ли способ замаскировать список значений int с помощью побитовых операторов и использовать эту маску, чтобы узнать, является ли значение int одним из значений, которые находятся в маске.
то есть, если у меня есть значения...
1499 просмотров
schedule
14.05.2022
Эффективная реализация фильтра Блума в C?
Этот вопрос уже задавался ранее, но на тот момент ответа на него не было, поэтому я решил задать его снова.
Мне нужна эффективная реализация фильтра Блума на C (не на C++). Если такой вещи нет, я был бы не против реализовать ее, если бы у меня...
13619 просмотров
schedule
15.02.2023
Как сопоставить вывод хеш-функции с индексами фильтра цветения?
Может ли кто-нибудь помочь мне, предоставив схему того, как вывод хеш-функции сопоставляется с индексами фильтра Блума? Вот обзор фильтров цветения .
815 просмотров
schedule
31.10.2022
Вычисление подмножества списка целых чисел
В настоящее время я реализую алгоритм, в котором один конкретный шаг требует от меня вычисления подмножеств следующим образом.
Представьте, что у меня есть наборы (возможно, миллионы) целых чисел. Где каждый набор потенциально может содержать...
344 просмотров
schedule
14.07.2022
какой интерес твиттера к абстрактной алгебре?
Зачем такой компании, как Twitter, интерес к алгебраическим понятиям, таким как группы, моноиды и кольца. https://github.com/twitter/algebird
Все, что я смог найти, это:
Реализации моноидов для интересных алгоритмов аппроксимации, таких...
1030 просмотров
schedule
28.03.2022
неповторяющиеся случайные числа
Мне нужно сгенерировать около 9-100 миллионов неповторяющихся случайных чисел, от нуля до количества сгенерированных чисел, и мне нужно, чтобы они генерировались очень быстро. В нескольких ответах на похожие вопросы предлагалось просто перетасовать...
769 просмотров
schedule
09.02.2024
Какую хеш-функцию использовать для блум-фильтра с 128-битными ключами?
https://github.com/joeyrobert/bloomfilter использует класс Random для хэш-функции, которая является убийца производительности . Я пытаюсь ввести класс с byte [] s вместо общего аргумента (T) и избавиться от
private int Hash(T item) {...
2225 просмотров
schedule
31.05.2022
Являются ли разные соленые хэши эквивалентными разным алгоритмам хеширования для фильтра Блума?
По мере того, как ваш набор данных становится больше, вам нужно больше алгоритмов хеширования, чтобы поддерживать низкий уровень ложных срабатываний на уровне 1%.
Если я хочу, чтобы мой фильтр Блума динамически рос во время выполнения, неизвестно,...
196 просмотров
schedule
29.05.2023
Дизайн ключа строки HBase для чтения и обновления
Я пытаюсь понять, как лучше всего создать ключ для моей таблицы HBase.
Мой вариант использования:
Структура прямо сейчас
PersonID | BatchDate | PersonJSON
Когда что-то в человеке изменяется, в Hbase вставляются новый PersonJSON и новый...
598 просмотров
schedule
07.08.2023
Будет ли фильтр Блума всегда возвращать ложные срабатывания при определенных условиях?
Предположим, что API-интерфейс фильтра Блума имеет 2 параметра: 1. количество битов в фильтре Блума (n) и 2. ожидаемое количество вставок (m).
Вопрос:
Будет ли m > n всегда приводить к complete ложным срабатываниям? Под complete я хочу...
154 просмотров
schedule
31.03.2022
интегрировать фильтр Choco и Bloom
Теперь я собираюсь интегрировать Choco и фильтр Bloom. Проблема в том, что я хочу знать, какой файл JAVA в Choco относится к процессу поиска, потому что я хочу сохранять решения каждого узла в фильтре Блума после каждого шага поиска.
исходный код...
86 просмотров
schedule
26.07.2023
Фильтры Блума для определения того, какие наборы в семействе являются подмножествами данного набора.
Я пытаюсь использовать фильтр Блума, чтобы определить, какие наборы из семейства наборов A1 , A2 ,..., Am являются подмножествами другого фиксированного набора Q . Я надеюсь, что кто-то может проверить правильность изложенного подхода или...
332 просмотров
schedule
28.08.2022
Почему фильтры Блума используют один и тот же массив для всех k алгоритмов хэширования
Я понимаю, что для того, чтобы уменьшить вероятность коллизии одного хэша и привести к ложноположительному результату Блума, фильтры используют несколько (k) хэшей.
Не было бы более выгодно использовать k массивов, по одному для каждого алгоритма...
289 просмотров
schedule
29.04.2022