Рекомендации по простому поисковику по мешку слов?

Какие-нибудь рекомендации для небольшой, легкой поисковой системы с набором слов?

У меня есть набор «документов», каждый из которых представляет собой небольшой пакет произвольных слов. Учитывая новый документ, мне нужно получить список «похожих» документов вместе с некоторым весом для того, насколько они могут быть похожи. Документы, скорее всего, будут небольшими... максимум пара абзацев.

Стемминг был бы отличным, но не очень обязательным.
Расширение слов с помощью сетей слов не требуется.
предпочтителен открытый исходный код или бесплатное программное обеспечение, так как это прототип, а не полноценный проект.
предпочтительна платформа unix/linux.

Я бы использовал его в качестве подкомпонента и ожидал только подачи документов с идентификатором, а позже выполнял бы поиск «похожих» документов на тот, который у меня есть в настоящее время.

ericslaw 21.09.2009 источник

Ответы (4)

arrow_upward
1
arrow_downward

Whoosh – это индексатор/поисковик на чистом Python (без C и без внешней базы данных). Дополнительную информацию см. в документации. Он поддерживает стемминг.

Я попробовал это на XML-дампе экземпляра mediawiki, и, похоже, это сработало очень хорошо!

Steven Kryskalla 21.09.2009

arrow_upward
0
arrow_downward

Solr или Сфинкс. Они не совсем легкие, но я бы не рекомендовал что-то меньшее, если проект окажется успешным и ему нужно расти, переход на поисковую систему может быть болезненным.

Mauricio Scheffer 21.09.2009

comment

Можете ли вы использовать Sphinx без базы данных (MySQL или Postgresql), т.е. скармливать его напрямую файлами? - Pascal Thivent; 22.09.2009

comment

да, используя источник xmlpipe2: sphinxsearch.com/docs/current.html#xmlpipe2 - Mauricio Scheffer; 22.09.2009

comment

Да, я видел это. Но все ли файлы в формате xml? Я хочу сказать, что Sphinx — это решение для индексации данных из таблицы или XML. Это не решение для неструктурированных данных вне базы данных. - Pascal Thivent; 22.09.2009

comment

Просто оберните свои документы нужным xml... это то же самое с Solr (за исключением того, что у Solr есть Tika для обработки двоичных документов) - Mauricio Scheffer; 22.09.2009

comment

Если у вас есть вопросы о Solr или Sphinx, я рекомендую вам создать реальный вопрос, а не публиковать их в виде комментариев... - Mauricio Scheffer; 22.09.2009