Что-то похожее на Spark — группировка по ключу, затем подсчет по значению позволит мне эмулировать df.series.value_counts()
функциональность Pandas в Spark, чтобы:
Результирующий объект будет располагаться в порядке убывания, так что первый элемент будет наиболее часто встречающимся элементом. Исключает значения NA по умолчанию. (http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.value_counts.html)
Мне любопытно, нельзя ли сделать это лучше/проще для фреймов данных в Spark.