Разгадка поисковой головоломки: ключевое слово, нечеткий, полнотекстовый, семантический

Это вторая статья из серии Создание ИИ-приложений на базе LLM. Мы рассмотрим несколько вспомогательных технологий.

Если вы читали первую статью, то знаете, что контекст важен для работы с LLM. Однако у них есть лимит токенов, поэтому вам необходимо предоставить LLM наиболее актуальную информацию. Однако, как вы можете просеять множество информации, которой владеет ваша компания? Вам необходимо использовать технологии поиска/запросов, и существует 4 основных метода поиска: ключевое слово, нечеткий, полнотекстовый и семантический.

Первые 3 являются своего рода лексическим поиском, поскольку все они основаны на сопоставлении слов, хотя между ними есть некоторые различия, например. поиск по ключевым словам означает поиск точного соответствия, в то время как нечеткий поиск может допускать некоторые опечатки (например, инвестиции, инвестиции) и различные формы слов (например, инвестиции, инвестиции, инвестиции), в то время как полнотекстовый поиск может также включать сценарии, например, если инвестиции близки к авангарду. , или если слово заканчивается на coin, или вы хотите найти синонимы для акций, например, акции, ценные бумаги.

Однако, если вы хотите найти все статьи, относящиеся к более сложному запросу «влияние инфляции на криптовалюту», этих методов недостаточно, потому что если в статье 1 «влияние инфляции на биткойн», а в статье 2 «влияние криптовалюты на экономику », вы бы хотели вернуть только статью 1, так как она более актуальна, поскольку биткойн — это один из видов криптовалюты. Предыдущие технологии поиска имели проблемы с этим типом поиска, так как вам нужно было понять семантическое значение слова/предложения. Вот почему в игру вступает семантический поиск/семантическое сходство. И чтобы включить семантический поиск, вам нужно что-то, называемое внедрением, которое будет рассмотрено в следующей статье.

Разгадка поисковой головоломки: ключевое слово, нечеткий, полнотекстовый, семантический

Вопросы по теме