logstash выводит твиттер в elasticsearch — сколько индексов иметь

Данные конфигурации logstash могут иметь несколько входных и выходных данных. Какие соображения влияют на решения относительно количества индексов, которые должны быть сохранены в качестве выходных данных в эластичном поиске, если я использую ввод твиттера в logstash?

Должен ли я иметь 1 индекс для каждой отслеживаемой учетной записи, 1 для тега или ключевого слова, или есть другие соображения, которые могут повлиять на дизайн?


person mobcdi    schedule 09.12.2015    source источник


Ответы (1)


В эластичном поиске есть накладные расходы для каждого открытого индекса, поэтому каждый из них будет потреблять HEAP.

Обычно в индекс помещают более одного типа документа (для этого и предназначено поле [type]). Обратите внимание, что в elasticsearch v2 все поля с одинаковыми именами должны иметь одинаковое сопоставление ("myField", если строка одного типа, всегда должна быть строкой).

Шарды имеют рекомендуемый верхний предел размера, около 60 ГБ IIRC.

Наконец, организуйте свой индекс так, чтобы обеспечить соблюдение вашей политики хранения было легко. Если все хранится в течение 7 дней, то дневной индекс будет работать хорошо. Используйте «куратор» для удаления старых индексов.

Я предпочитаю делать меньшее количество больших индексов.

person Alain Collins    schedule 09.12.2015
comment
Не могли бы вы предложить разные [типы] для каждой учетной записи, тега и значения ключевого слова или 1 для каждой классификации? - person mobcdi; 09.12.2015
comment
Я не знаком с потоком в твиттере. В общем, они говорят думать о типах как о таблицах базы данных. Надеюсь, это поможет. - person Alain Collins; 09.12.2015