У меня есть индекс Elasticsearch v2.4.1, в котором я храню значения из фида JSON. Иногда я получаю значения, разделенные пробелами в некоторых полях, например:
"titulo" : "E l a ñ o q u e e l m e r c a d o d e j ó d e a s u s t a r"
Это происходит примерно в 15% случаев и предотвращает такие запросы, как:
localhost:9200/indice/_search?q=titulo:mercado
Чтобы соответствовать документу выше.
Я думаю, что проблема может быть решена с помощью какого-то CharFilter, я думал о фильтре N-gram, но он делает обратное. Я знаю, что это может быть сложно, поскольку ES должен на каком-то уровне делать вывод о языке (или, может быть, я мог бы указать его); справляться с неясностями и так далее...
Другие примеры того же:
"title" : "El g a l a r d ó n se e n t r e g a r á el p r ó x i m o día 2 4"
"title" : "G a m a a c t u a l i z a d a d e b o m b a s d e calor A q u a t e r m i c"
"title" : "K a s p e r s k y : m á s q u e a n t i v i r u s"