свинья отдельный атом

Предположим, что мои данные выглядят так со столбцами с названиями еда, действие и население:

pizzas   eatenBy  humans
pizzas   eatenBy  collegeKids
pizzas   eatenBy  everyOne
pizzas   grownBy  farmers
sprouts  grownBy  sproutFarmers
sprouts  grownBy  humans

Как я могу написать скрипт Pig Latin, чтобы производить ТОЛЬКО уникальную еду и действие с любой действительной популяцией из отдельной группы еды и действия?

т.е. единственный результат, который я хотел бы получить из приведенных выше данных, был бы таким (хотя заполнение 1-й и 3-й строк может быть другим):

pizzas   eatenBy  everyOne
pizzas   grownBy  farmers
sprouts  grownBy  sproutFarmers

Спасибо,


person user2250400    schedule 16.04.2013    source источник


Ответы (1)


Не знаю, как бы вы сделали это с DISTINCT (что более эффективно, чем то, что я собираюсь предложить), но вы могли бы сделать это:

food = load 'foodInput' AS (foodType,action,population);
foodGrouped = GROUP food by (foodType,action);
foodLimited = foreach foodGrouped {
    limited = LIMIT food 1;
    GENERATE FLATTEN(limited.(foodType,action,population));
};
person DMulligan    schedule 17.04.2013
comment
Невозможно сделать это с отдельными, так как выбор третьих полей не ясен - person Rags; 17.04.2013