По общему признанию, это похоже на (но не дубликат) Сравнение системы полнотекстового поиска - Lucene, Sphinx, Postgresql, MySQL?, однако я ищу конкретные, поддерживаемые, рекомендации, основанные на опыте с более чем одной из доступных систем (кажется, много таких: «Я использовал lucene, но не sphinx», и наоборот).
Настройка: Стандартная ЛАМПА (Mysql 5.0, PHP 5).
MySQL: таблицы используют движок InnoDB для ограничений внешнего ключа
Мы смотрим на индексирование данных, а не страниц. данные для индексации могут быть на нескольких языках (кодировка utf-8)
Ряд сравнений, с которыми я столкнулся (например, http://blog.evanweaver.com/articles/2008/03/17/rails-search-benchmarks/) либо не полностью применимы (хорька - это порт lucene, но не такой, как Zend_Search_Lucene), либо они подталкивают их собственные системы / реализации (не совсем объективные).
Некоторые другие, с которыми я сталкивался (например, http://whatstheplot.com/blog/tag/lucene/ и http://pagetracer.com/2008/02/15/sphinx-and-lucene-search-engines-first-impressions/) дают очень разные результаты для производительности двух систем.
Кроме того, в большей части того, что я читал, почти игнорируется Xapian. Стоит ли это также рассмотреть?
Итак ... Я надеюсь, что некоторые из вас здесь, на SO, имеют некоторый опыт в этом вопросе и могут помочь с некоторыми рекомендациями или указать мне правильное направление.