Я использую куст (с внешними таблицами) для обработки данных, хранящихся на amazon S3.
Мои данные разделены следующим образом: group/team/dt/
(например, файл данных может храниться по пути group=myGroup/team=myTeam/dt=20120603
)
Я хотел бы обработать данные для нескольких команд (в разных группах). Поскольку RCOVER PARTITIONS занимает много времени, я хочу добавить несколько разделов на основе значений группы и команды в таблицу куста (т. Е. Учитывая данные о загрузке группы и команды для всех дат, доступных в этой команде).
Функциональность, которую я ищу, это:
CREATE EXTERNAL TABLE myData(
attr1 string, attr2 string, attr3 string)
PARTITIONED BY (group string, team string, dt string )
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION 's3://myBucket/${DATA_ROOT_DIR}';
-- Add paritions without specifying values for dt
ALTER TABLE myData ADD PARTITION (group='group1',team='team1') ;
ALTER TABLE myData ADD PARTITION (group='group2',team='team2') ;
Спасибо!