Какие-нибудь рекомендации для небольшой, легкой поисковой системы с набором слов?
У меня есть набор «документов», каждый из которых представляет собой небольшой пакет произвольных слов. Учитывая новый документ, мне нужно получить список «похожих» документов вместе с некоторым весом для того, насколько они могут быть похожи. Документы, скорее всего, будут небольшими... максимум пара абзацев.
- Стемминг был бы отличным, но не очень обязательным.
- Расширение слов с помощью сетей слов не требуется.
- предпочтителен открытый исходный код или бесплатное программное обеспечение, так как это прототип, а не полноценный проект.
- предпочтительна платформа unix/linux.
Я бы использовал его в качестве подкомпонента и ожидал только подачи документов с идентификатором, а позже выполнял бы поиск «похожих» документов на тот, который у меня есть в настоящее время.