У меня есть много файлов изображений, и мне нужно хранить их в HDFS, чтобы избежать проблемы с маленькими файлами, я планирую хранить свои файлы изображений с помощью файлов последовательности.
Моя проблема в том, что мне нужно создать программу MapReduce, которая обрабатывает только выборку этих файлов, я не думаю, что это хорошая идея читать все содержимое изображений из SequenceFile, если я планирую обрабатывать только некоторые из них. их также можно добавить больше изображений, если я создам новый SequenceFile для каждой группы изображений, как я узнаю, какой SequenceFile содержит изображения, которые мне нужно обработать?. Если бы я знал, что вручную фильтровать изображения, прежде чем вводить данные в картограф, будет сложно.
Пожалуйста посоветуй. Спасибо!