Итак, у моего работодателя есть сообщения Avro, проходящие через Kafka. Мы хотим архивировать все сообщения в Amazon S3. В идеале, днем они должны храниться в S3-подобных каталогах и использовать структуру пути, например:
s3://my-bucket/data/day=2016-03-04/data.avro
Есть ли ссылка или лучшие практики, как это сделать хорошо?
У меня есть один вопрос: идемпотентность: как обеспечить идемпотентность записи, когда запись может быть отправлена моему приемнику записи более одного раза, но сохранена на S3 только один раз.
Я правильно понимаю, что мне нужна идемпотентность? Если я реализую простое добавление (неидемпотентное), Kafka Connect может отправлять одни и те же записи дважды, и они могут храниться избыточно?