Публикации по тегам bloom-filter [python, bloom-filter, jython, data-structures, language-agnostic]

Вопросы по теме 'bloom-filter'

Современный высокопроизводительный фильтр Блума в Python?

Я ищу реализацию фильтра Блума производственного качества в Python для обработки довольно большого количества элементов (скажем, от 100 до 1 миллиарда элементов с 0,01% ложных срабатываний). Pybloom — один из вариантов, но он, кажется, показывает...

16620 просмотров

python bloom-filter jython

06.02.2024

Несколько вопросов о реализации фильтра Блума

Недавно я обнаружил сайт, который устанавливает определенные кодовые ката. Одно из Ката привлекло мое внимание и заставило меня изучить фильтры Блума. Я использую PHP и MySql. У меня есть таблица с примерно 45 000 слов, которая действует как...

1081 просмотров

data-structures bloom-filter language-agnostic

23.09.2022

Использование хэш-функций с фильтрами Блума

Фильтр Блума использует хэш-функцию (или несколько) для генерации значения от 0 до m с учетом входной строки X. Мой вопрос заключается в том, как использовать хеш-функцию для генерации значения таким образом, например, хеш-код MD5 обычно представлен...

2174 просмотров

hash bloom-filter

10.09.2022

Быстрые фильтры Блума в C-64bit Ints, высокочастотный цикл Initialize/Query/Destroy

Мне нужна реализация фильтра Блума для части большого проекта. Весь проект написан на C (и только на C! Никакого C++), и, к сожалению, мне не удалось найти достойных реализаций фильтра Блума на основе C (кроме доказательство концепции реализации )....

4109 просмотров

c bloom-filter hashtable

12.07.2022

Быстрый способ найти строку, связанную с данным Guid, во многих базах данных и таблицах SQL.

У меня есть несколько баз данных SQL, каждая из которых содержит множество таблиц. Они преимущественно имеют случайно сгенерированные идентификаторы в качестве первичных ключей строк. Я хотел бы найти способ найти данные таблицы и строки, связанные...

317 просмотров

sql database sql-server-2008 data-structures bloom-filter

27.09.2022

Какие методы хеширования использовать при создании фильтра Блума в clojure?

Я хочу создать фильтр Блума в Clojure, но у меня мало знаний обо всех библиотеках хеширования, которые могут быть доступны для языков на основе JVM. Что я должен использовать для самой быстрой (в отличие от самой точной) реализации карты цветения в...

3558 просмотров

java hash clojure bloom-filter

09.06.2023

Почти обнаружение дубликатов в потоках данных

В настоящее время я работаю над потоковым API, который генерирует много текстового контента. Как и ожидалось, API выдает много дубликатов, и у нас также есть бизнес-требование фильтровать почти дублирующиеся данные. Я немного изучил обнаружение...

2122 просмотров

streaming duplicates filtering bloom-filter

06.02.2024

Как замаскировать целые числа с помощью побитовых операторов

Мне было интересно, есть ли способ замаскировать список значений int с помощью побитовых операторов и использовать эту маску, чтобы узнать, является ли значение int одним из значений, которые находятся в маске. то есть, если у меня есть значения...

1499 просмотров

bloom-filter bit-manipulation bitmask bitwise-operators

14.05.2022

Эффективная реализация фильтра Блума в C?

Этот вопрос уже задавался ранее, но на тот момент ответа на него не было, поэтому я решил задать его снова. Мне нужна эффективная реализация фильтра Блума на C (не на C++). Если такой вещи нет, я был бы не против реализовать ее, если бы у меня...

13619 просмотров

c bloom-filter

15.02.2023

Как сопоставить вывод хеш-функции с индексами фильтра цветения?

Может ли кто-нибудь помочь мне, предоставив схему того, как вывод хеш-функции сопоставляется с индексами фильтра Блума? Вот обзор фильтров цветения .

815 просмотров

c++ database algorithm bloom-filter

31.10.2022

Вычисление подмножества списка целых чисел

В настоящее время я реализую алгоритм, в котором один конкретный шаг требует от меня вычисления подмножеств следующим образом. Представьте, что у меня есть наборы (возможно, миллионы) целых чисел. Где каждый набор потенциально может содержать...

344 просмотров

set sorting algorithm bloom-filter

14.07.2022

какой интерес твиттера к абстрактной алгебре?

Зачем такой компании, как Twitter, интерес к алгебраическим понятиям, таким как группы, моноиды и кольца. https://github.com/twitter/algebird Все, что я смог найти, это: Реализации моноидов для интересных алгоритмов аппроксимации, таких...

1030 просмотров

twitter scala bloom-filter algebra

28.03.2022

неповторяющиеся случайные числа

Мне нужно сгенерировать около 9-100 миллионов неповторяющихся случайных чисел, от нуля до количества сгенерированных чисел, и мне нужно, чтобы они генерировались очень быстро. В нескольких ответах на похожие вопросы предлагалось просто перетасовать...

769 просмотров

random shuffle bloom-filter non-repetitive

09.02.2024

Какую хеш-функцию использовать для блум-фильтра с 128-битными ключами?

https://github.com/joeyrobert/bloomfilter использует класс Random для хэш-функции, которая является убийца производительности . Я пытаюсь ввести класс с byte [] s вместо общего аргумента (T) и избавиться от private int Hash(T item) {...

2225 просмотров

.net c# optimization hash bloom-filter

31.05.2022

Являются ли разные соленые хэши эквивалентными разным алгоритмам хеширования для фильтра Блума?

По мере того, как ваш набор данных становится больше, вам нужно больше алгоритмов хеширования, чтобы поддерживать низкий уровень ложных срабатываний на уровне 1%. Если я хочу, чтобы мой фильтр Блума динамически рос во время выполнения, неизвестно,...

196 просмотров

hash data-structures bloom-filter

29.05.2023

Дизайн ключа строки HBase для чтения и обновления

Я пытаюсь понять, как лучше всего создать ключ для моей таблицы HBase. Мой вариант использования: Структура прямо сейчас PersonID | BatchDate | PersonJSON Когда что-то в человеке изменяется, в Hbase вставляются новый PersonJSON и новый...

598 просмотров

hadoop bloom-filter hbase

07.08.2023

Будет ли фильтр Блума всегда возвращать ложные срабатывания при определенных условиях?

Предположим, что API-интерфейс фильтра Блума имеет 2 параметра: 1. количество битов в фильтре Блума (n) и 2. ожидаемое количество вставок (m). Вопрос: Будет ли m > n всегда приводить к complete ложным срабатываниям? Под complete я хочу...

154 просмотров

data-structures bloom-filter language-agnostic

31.03.2022

интегрировать фильтр Choco и Bloom

Теперь я собираюсь интегрировать Choco и фильтр Bloom. Проблема в том, что я хочу знать, какой файл JAVA в Choco относится к процессу поиска, потому что я хочу сохранять решения каждого узла в фильтре Блума после каждого шага поиска. исходный код...

86 просмотров

java bloom-filter choco

26.07.2023

Фильтры Блума для определения того, какие наборы в семействе являются подмножествами данного набора.

Я пытаюсь использовать фильтр Блума, чтобы определить, какие наборы из семейства наборов A1 , A2 ,..., Am являются подмножествами другого фиксированного набора Q . Я надеюсь, что кто-то может проверить правильность изложенного подхода или...

332 просмотров

algorithm hash bloom-filter

28.08.2022

Почему фильтры Блума используют один и тот же массив для всех k алгоритмов хэширования

Я понимаю, что для того, чтобы уменьшить вероятность коллизии одного хэша и привести к ложноположительному результату Блума, фильтры используют несколько (k) хэшей. Не было бы более выгодно использовать k массивов, по одному для каждого алгоритма...

289 просмотров

algorithm bloom-filter

29.04.2022