Используя Spacy, чтобы найти сходство в нескольких текстах, теперь я пытаюсь найти похожие тексты в миллионах записей (мгновенно).
У меня есть приложение с миллионами текстов, и я хотел бы предоставить пользователю похожие тексты, если они попросят.
Как такие сайты, как StackOverflow, так быстро находят похожие вопросы?
Я могу представить 2 подхода:
- Каждый раз, когда вставляется текст, сравнивается вся БД и делается ссылка между обоими вопросами (в промежуточной таблице с обоими внешними ключами)
- Каждый раз, когда текст вставляется, вектор вставляется в поле, связанное с этим текстом. Всякий раз, когда пользователь запрашивает похожие тексты, он «ищет» в БД похожие тексты.
Я сомневаюсь во втором выборе. Хранения вектора слов достаточно для быстрого поиска похожих текстов?