Есть ли способ сгенерировать номер строки без преобразования кадра данных в rdd в pyspark 1.3.1?

Я использую pyspark 1.3.1, мне нужно создать уникальный идентификатор/номер для каждой строки в кадре данных.

Поскольку оконные функции недоступны в версии Pyspark: 1.3.1, я не могу использовать функцию rownumber.

Как я могу ввести номер строки без функции rownumber и без преобразования кадра данных в RDD?


person Mohan    schedule 11.04.2016    source источник
comment
может быть, использовать базовый RDD и использовать zipWithIndex() ?   -  person Zahiro Mor    schedule 11.04.2016
comment
Спасибо. Есть ли способ генерировать номер строки без преобразования кадра данных в rdd? Я обрабатываю очень большой файл и пытаюсь сократить количество ненужных шагов.   -  person Mohan    schedule 11.04.2016
comment
Вам нужно, чтобы они были абсолютно последовательными (без промежутков) или они могут быть промежутками, пока сохраняется порядок? (например, [1,2,3,4,5,6,7] против [1,2,3,1001,1002,1003,1004])?   -  person David Griffin    schedule 11.04.2016
comment
Пробелы допустимы, но каждое число в последовательности должно быть уникальным. В ваших списках второй тоже подходит   -  person Mohan    schedule 11.04.2016