Я хотел бы спросить о задаче обработки, которую я пытаюсь выполнить с помощью конвейера данных в AWS, но мне не удалось заставить ее работать.
По сути, у меня есть 2 узла данных, представляющих 2 базы данных MySQL, из которых предполагается периодически извлекать данные и помещать их в корзину S3. Это действие копирования работает нормально, выбирая ежедневно каждую добавленную строку, скажем, сегодня - 1 день.
Однако эта корзина, содержащая собранные данные в виде CSV, должна стать входом для операции EMR, которая будет обрабатывать эти файлы и агрегировать информацию. Проблема в том, что я не знаю, как удалить или переместить уже обработанные файлы в другое ведро, поэтому мне не нужно обрабатывать все файлы каждый день.
Чтобы уточнить, я ищу способ переместить или удалить уже обработанные файлы в ведре S3 из конвейера. Могу ли я сделать это? Есть ли другой способ, которым я могу обрабатывать только некоторые файлы в действии EMR на основе соглашения об именах или чего-то еще?