У меня есть приложение, в которое необходимо загрузить файлы .doc. Затем эти документы должны быть проиндексированы, и вся коллекция документов должна быть доступна для поиска. Это будет работать на Windows Server без установленного Word, с использованием IIS и SqlServer, но я бы не хотел привязываться к полнотекстовому индексированию SqlServer.
Я думал об использовании Lucene.Net для части индексации, и мне было интересно, как лучше всего получить текст из файлов .doc. Вероятно, я мог бы извлечь текст, прочитав весь поток, а затем используя регулярное выражение для извлечения любых обычных символов, но это кажется здоровенным и подверженным ошибкам.
Я видел статью об использовании iFilters, которая звучит многообещающе, но я решил опубликовать ее, так как я не знаком с ней.
P.S. Если это имеет значение, в этих файлах .doc будут поля для слияния, и в настоящее время нет другой альтернативы для формата .doc.