Как индексировать и искать файлы .doc

У меня есть приложение, в которое необходимо загрузить файлы .doc. Затем эти документы должны быть проиндексированы, и вся коллекция документов должна быть доступна для поиска. Это будет работать на Windows Server без установленного Word, с использованием IIS и SqlServer, но я бы не хотел привязываться к полнотекстовому индексированию SqlServer.

Я думал об использовании Lucene.Net для части индексации, и мне было интересно, как лучше всего получить текст из файлов .doc. Вероятно, я мог бы извлечь текст, прочитав весь поток, а затем используя регулярное выражение для извлечения любых обычных символов, но это кажется здоровенным и подверженным ошибкам.

Я видел статью об использовании iFilters, которая звучит многообещающе, но я решил опубликовать ее, так как я не знаком с ней.

P.S. Если это имеет значение, в этих файлах .doc будут поля для слияния, и в настоящее время нет другой альтернативы для формата .doc.

Jared 18.07.2009 источник

Ответы (3)

arrow_upward
3
arrow_downward

Что касается решения, которое не требует внешней программы, похоже, что решение iFilter — это то, что нужно (хотя вы можете считать это внешней программой).

Вот простая статья CodePlex и код о том, как это можно сделать: http://www.codeproject.com/KB/cs/IFilter.aspx

Jared 24.07.2009

arrow_upward
1
arrow_downward

В наших приложениях на основе PHP мы всегда использовали внешние программы, подобные этой: doc2txt. Затем мы взяли текст и сохранили его в базе данных. Если вы введете в Google запрос «doc2txt», вы найдете много разных программ, делающих одно и то же. Просто возьмите тот, который подходит вам лучше всего.

Raffael Luthiger 18.07.2009

arrow_upward
0
arrow_downward

Может быть, вы захотите проверить Solr.

Sinan Taifour 18.07.2009

comment

Похоже, для этого нужен Apache. Мы запускаем IIS. - Jared; 19.07.2009

comment

Вы можете запустить его отдельно и общаться с ним, используя его API. - Sinan Taifour; 19.07.2009

Как индексировать и искать файлы .doc

Ответы (3)

Вопросы по теме