Вопросы по теме 'inverted-index'

Инвертированный индекс в поисковике
Я пытаюсь написать код, чтобы сделать небольшое приложение для поиска текста в файлах. Файлы надо сканировать, а мне нужно поставить инвертированный индекс для ускорения поиска. Моя проблема в том, что у меня есть идеи о том, каким должен быть...
2011 просмотров
schedule 18.04.2023

Как поисковые системы объединяют результаты инвертированного индекса?
Как поисковые системы объединяют результаты инвертированного индекса? Например, если бы я искал инвертированные индексы слов «собака» и «летучая мышь», я бы нашел два огромных списка каждого документа, содержащего одно из двух слов. Я...
4305 просмотров

Помощь в построении инвертированного индекса
Это часть работы по поиску информации, которую я делаю для школы. План состоит в том, чтобы создать хэш-карту слов, используя первые две буквы слова в качестве ключа и любые слова с двумя буквами, сохраненными в качестве строкового значения. Так,...
2010 просмотров

Советы по созданию очень большой базы данных хэшей
Вопрос: какое решение или какие советы вам придется иметь при работе с очень большой (многотерабайтной) базой данных, индексированной на сильных хэшах с высокой избыточностью? Какое-то перевернутое хранилище? Есть ли что-то, что можно сделать с...
1362 просмотров
schedule 11.02.2023

инвертированный индекс hadoop без повторения имен файлов
что у меня есть на выходе: слово , файл ----- ------ wordx Doc2, Doc1, Doc1, Doc1, Doc1, Doc1, Doc1, Doc1 что я хочу: слово, файл ----- ------ wordx Doc2, Doc1 public static class LineIndexMapper extends MapReduceBase implements...
1928 просмотров
schedule 31.01.2023

Как добавить новые документы в инвертированный индекс
Рассмотрим инвертированный индекс с позиционными записями, хранящимися в базе данных MySQL, как: Word (VARCHAR) | Documents (LONGTEXT) ------------------------------------------------------------- Hello | {id: 11, freq: 4, pos:...
208 просмотров
schedule 09.10.2022

Перевернутый индекс для регулярного выражения? Поисковая система регулярных выражений?
Мне было интересно, можно ли вообще построить инвертированный индекс для всех возможных регулярных выражений... У меня было несколько идей, но на данный момент они крайне расплывчаты. Мое объяснение этого в том, что я думаю, что поисковая система,...
403 просмотров
schedule 10.11.2022

Перевернутый индекс с учетом списка токенов документов с использованием python?
Я новичок в питоне. Мне нужно создать инвертированную индексную функцию с учетом списка токенов документа. Индекс отображает каждое уникальное слово в список идентификаторов документов, отсортированных в порядке возрастания. Мой код: def...
16224 просмотров
schedule 07.09.2022

хэш-индекс против инвертированного индекса
Насколько я понимаю, хэш/инвертированный индекс сопоставляет значения/слова с записями/документами соответственно. Однако сложность вставки в хэш-индекс невелика (поскольку он добавляет новую корзину в случае переполнения), но больше в...
1549 просмотров

вставка записей в базу данных MS Access
Я пытаюсь вставить большое количество записей в свой перевернутый индекс, который построен как таблица в базе данных MS Access. Это дизайн таблицы (ID,term,doc,sent — составной первичный ключ): и это код: Connection conn =...
89 просмотров
schedule 16.09.2023

печатать lucene в формате инвертированного индекса
Насколько я понимаю, Lucene использует инвертированные индексы. Есть ли способ извлечь/распечатать индекс lucene (lucene 6) в формате инвертированного индекса: term1 <doc1, doc100, ..., doc555> term1 <doc1, ..., doc100, ...,...
533 просмотров
schedule 15.06.2022

как напечатать инвертированный индекс типа внутри elasicsearch
Elasticsearch поддерживает инвертированный индекс для каждый тип . Ради обучения, как я могу отобразить/распечатать инвертированный индекс определенного типа, используя эластичные API/конечные точки? Спасибо за вашу помощь
522 просмотров
schedule 18.10.2022

Какую структуру данных использует Google Firebase Firestore для индекса по умолчанию
Мне любопытно, знает ли кто-нибудь или может догадаться, какую структуру данных использует Google Firestore для индексации произвольных документов NoSQL по каждому полю. Я хочу построить что-то подобное, сделав его максимально эффективным....
540 просмотров

Что такое DocValues ​​в Solr.
Я новичок в Солре. Я читал, что Solr использует инвертированный индекс, который эффективен для быстрого поиска. Но если запрос включает сортировку, фасетирование, люди рекомендуют использовать docvalues. Итак, мой вопрос заключается в том, что...
785 просмотров
schedule 24.01.2023

Показать общее количество извлеченных документов
Я использую алгоритм TF-IDF для получения соответствующих документов с помощью запроса, который я ввожу. Я успешно получил соответствующие документы и показываю их тоже. Но я хочу показать ОБЩИЕ документы, которые были получены. Я использую этот...
156 просмотров

PostgreSQL: можно ли создать значение tsvector вручную?
Я хочу реализовать систему поиска информации, которая использует модель векторного пространства, но с многозначными токенами и пользовательской функцией взвешивания терминов. Я рассматриваю возможность создания инвертированного индекса в PostgreSQL...
131 просмотров
schedule 21.08.2022

Получить, поместить ключ и значения из вложенной хэш-карты
Я хочу создать вложенную HashMap, которая возвращает частоту терминов среди нескольких файлов. Нравиться, Map<String, Map<String, Integer>> wordToDocumentMap=new HashMap<>(); Я смог вернуть количество раз, когда термин...
83 просмотров

Существует ли алгоритм, использующий алфавитно-перевернутый индекс?
Я работаю над проектом поиска информации в Python. Многочисленные источники, которые я читал, в том числе эта книга , подчеркивают важность хранения перевернутого индекс в алфавитном порядке, хотя я не нашел в этом никаких преимуществ. Многие...
72 просмотров

Список сообщений в Python
Привет, мне нужно создать диктофон из списка уникальных слов, токенизированных и обработанных из нескольких файлов. Таким образом, окончательный формат словаря сообщений будет следующим: {wordid: [0, 1, ...], wordid2: [0, 1, ...]}, Я действительно...
91 просмотров