У меня есть несколько (более 1 миллиона) документов, сообщений электронной почты и т. д., которые мне нужно проиндексировать и выполнить поиск. Каждый документ может иметь разную кодировку.
Какие продукты (или конфигурацию продуктов) мне нужно изучить и понять, чтобы сделать это правильно?
Мое первое предположение - это что-то на основе Lucene, но это то, чему я только учусь. Мое главное желание — начать трудоемкий процесс кодирования как можно скорее, чтобы мы могли параллельно создавать интерфейс поиска. Это может потребовать некоторой нормализации двухбайтовых символов.
Любая помощь приветствуется.