Неясно, можете ли вы сделать разветвление (дублирование) в Kafka, как в Flume.
Я бы хотел, чтобы Kafka сохраняла данные в HDFS или S3 и отправляла копию этих данных в Storm для обработки в реальном времени. Выходные данные агрегации/анализа Storm будут храниться в Cassandra. Я вижу некоторые реализации, передающие все данные из Kafka в Storm, а затем два вывода из Storm. Однако я хотел бы устранить зависимость от Storm для хранения необработанных данных.
Это возможно? Знаете ли вы о какой-либо документации/примерах/реализациях, подобных этому?
Кроме того, у Kafka есть хорошая поддержка хранилища S3?
Я видел Camus для хранения в HDFS — вы просто запускаете это задание через cron, чтобы постоянно загружать данные из Kafka в HDFS? Что произойдет, если второй экземпляр задания запустится до завершения предыдущего? Наконец, будет ли Камю работать с S3?
Спасибо, я ценю это!