Вопросы по теме 'inverted-index'
Инвертированный индекс в поисковике
Я пытаюсь написать код, чтобы сделать небольшое приложение для поиска текста в файлах.
Файлы надо сканировать, а мне нужно поставить инвертированный индекс для ускорения поиска.
Моя проблема в том, что у меня есть идеи о том, каким должен быть...
2011 просмотров
schedule
18.04.2023
Как поисковые системы объединяют результаты инвертированного индекса?
Как поисковые системы объединяют результаты инвертированного индекса?
Например, если бы я искал инвертированные индексы слов «собака» и «летучая мышь», я бы нашел два огромных списка каждого документа, содержащего одно из двух слов.
Я...
4305 просмотров
schedule
25.06.2023
Помощь в построении инвертированного индекса
Это часть работы по поиску информации, которую я делаю для школы. План состоит в том, чтобы создать хэш-карту слов, используя первые две буквы слова в качестве ключа и любые слова с двумя буквами, сохраненными в качестве строкового значения. Так,...
2010 просмотров
schedule
10.11.2022
Советы по созданию очень большой базы данных хэшей
Вопрос: какое решение или какие советы вам придется иметь при работе с очень большой (многотерабайтной) базой данных, индексированной на сильных хэшах с высокой избыточностью?
Какое-то перевернутое хранилище?
Есть ли что-то, что можно сделать с...
1362 просмотров
schedule
11.02.2023
инвертированный индекс hadoop без повторения имен файлов
что у меня есть на выходе:
слово , файл ----- ------ wordx Doc2, Doc1, Doc1, Doc1, Doc1, Doc1, Doc1, Doc1
что я хочу:
слово, файл ----- ------ wordx Doc2, Doc1
public static class LineIndexMapper extends MapReduceBase
implements...
1928 просмотров
schedule
31.01.2023
Как добавить новые документы в инвертированный индекс
Рассмотрим инвертированный индекс с позиционными записями, хранящимися в базе данных MySQL, как:
Word (VARCHAR) | Documents (LONGTEXT)
-------------------------------------------------------------
Hello | {id: 11, freq: 4, pos:...
208 просмотров
schedule
09.10.2022
Перевернутый индекс для регулярного выражения? Поисковая система регулярных выражений?
Мне было интересно, можно ли вообще построить инвертированный индекс для всех возможных регулярных выражений... У меня было несколько идей, но на данный момент они крайне расплывчаты.
Мое объяснение этого в том, что я думаю, что поисковая система,...
403 просмотров
schedule
10.11.2022
Перевернутый индекс с учетом списка токенов документов с использованием python?
Я новичок в питоне. Мне нужно создать инвертированную индексную функцию с учетом списка токенов документа. Индекс отображает каждое уникальное слово в список идентификаторов документов, отсортированных в порядке возрастания.
Мой код:
def...
16224 просмотров
schedule
07.09.2022
хэш-индекс против инвертированного индекса
Насколько я понимаю, хэш/инвертированный индекс сопоставляет значения/слова с записями/документами соответственно. Однако сложность вставки в хэш-индекс невелика (поскольку он добавляет новую корзину в случае переполнения), но больше в...
1549 просмотров
schedule
07.12.2023
вставка записей в базу данных MS Access
Я пытаюсь вставить большое количество записей в свой перевернутый индекс, который построен как таблица в базе данных MS Access. Это дизайн таблицы (ID,term,doc,sent — составной первичный ключ):
и это код:
Connection conn =...
89 просмотров
schedule
16.09.2023
печатать lucene в формате инвертированного индекса
Насколько я понимаю, Lucene использует инвертированные индексы. Есть ли способ извлечь/распечатать индекс lucene (lucene 6) в формате инвертированного индекса:
term1 <doc1, doc100, ..., doc555>
term1 <doc1, ..., doc100, ...,...
533 просмотров
schedule
15.06.2022
как напечатать инвертированный индекс типа внутри elasicsearch
Elasticsearch поддерживает инвертированный индекс для каждый тип . Ради обучения, как я могу отобразить/распечатать инвертированный индекс определенного типа, используя эластичные API/конечные точки?
Спасибо за вашу помощь
522 просмотров
schedule
18.10.2022
Какую структуру данных использует Google Firebase Firestore для индекса по умолчанию
Мне любопытно, знает ли кто-нибудь или может догадаться, какую структуру данных использует Google Firestore для индексации произвольных документов NoSQL по каждому полю. Я хочу построить что-то подобное, сделав его максимально эффективным....
540 просмотров
schedule
21.05.2022
Что такое DocValues в Solr.
Я новичок в Солре. Я читал, что Solr использует инвертированный индекс, который эффективен для быстрого поиска. Но если запрос включает сортировку, фасетирование, люди рекомендуют использовать docvalues. Итак, мой вопрос заключается в том, что...
785 просмотров
schedule
24.01.2023
Показать общее количество извлеченных документов
Я использую алгоритм TF-IDF для получения соответствующих документов с помощью запроса, который я ввожу. Я успешно получил соответствующие документы и показываю их тоже. Но я хочу показать ОБЩИЕ документы, которые были получены.
Я использую этот...
156 просмотров
schedule
20.03.2023
PostgreSQL: можно ли создать значение tsvector вручную?
Я хочу реализовать систему поиска информации, которая использует модель векторного пространства, но с многозначными токенами и пользовательской функцией взвешивания терминов.
Я рассматриваю возможность создания инвертированного индекса в PostgreSQL...
131 просмотров
schedule
21.08.2022
Получить, поместить ключ и значения из вложенной хэш-карты
Я хочу создать вложенную HashMap, которая возвращает частоту терминов среди нескольких файлов. Нравиться,
Map<String, Map<String, Integer>> wordToDocumentMap=new HashMap<>();
Я смог вернуть количество раз, когда термин...
83 просмотров
schedule
23.11.2022
Существует ли алгоритм, использующий алфавитно-перевернутый индекс?
Я работаю над проектом поиска информации в Python. Многочисленные источники, которые я читал, в том числе эта книга , подчеркивают важность хранения перевернутого индекс в алфавитном порядке, хотя я не нашел в этом никаких преимуществ.
Многие...
72 просмотров
schedule
10.03.2022
Список сообщений в Python
Привет, мне нужно создать диктофон из списка уникальных слов, токенизированных и обработанных из нескольких файлов. Таким образом, окончательный формат словаря сообщений будет следующим: {wordid: [0, 1, ...], wordid2: [0, 1, ...]},
Я действительно...
91 просмотров
schedule
20.11.2022