Мы храним наши журналы в S3, и один из наших запросов (Pig) будет захватывать три разных типа журналов. Каждый тип журнала находится в наборах подкаталогов в зависимости от типа/даты. Например:
/logs/<type>/<year>/<month>/<day>/<hour>/lots_of_logs_for_this_hour_and_type.log*
мой запрос хотел бы загрузить все три типа журналов за определенное время. Например:
type1 = load 's3:/logs/type1/2011/03/08' as ...
type2 = load 's3:/logs/type2/2011/03/08' as ...
type3 = load 's3:/logs/type3/2011/03/08' as ...
result = join type1 ..., type2, etc...
тогда мои запросы будут выполняться по всем этим журналам.
Каков наиболее эффективный способ справиться с этим?
- Нужно ли нам использовать расширение скрипта bash? Не уверен, что это работает с несколькими каталогами, и я сомневаюсь, что это было бы эффективно (или даже возможно), если бы нужно было загрузить 10 000 журналов.
- Создадим ли мы службу для объединения всех журналов и отправки их напрямую в hdfs?
- Пользовательские импортеры java/python?
- Другие мысли?
Если бы вы могли оставить пример кода, если это уместно, это было бы полезно.
Спасибо