У меня есть следующая таблица в качестве RDD:
Key Value
1 y
1 y
1 y
1 n
1 n
2 y
2 n
2 n
Я хочу удалить все дубликаты из Value
.
Вывод должен быть таким:
Key Value
1 y
1 n
2 y
2 n
При работе в pyspark вывод должен быть в виде списка пар ключ-значение, например:
[(u'1',u'n'),(u'2',u'n')]
Я не знаю, как применить цикл for
здесь. В обычной программе Python это было бы очень просто.
Интересно, есть ли какая-то функция в pyspark
для того же самого.