Spark – 使用数据框语法进行HAVING分组?

在没有sql / hiveContext的Spark中使用groupby-having的语法是什么? 我知道我能做到

DataFrame df = some_df df.registreTempTable("df"); df1 = sqlContext.sql("SELECT * FROM df GROUP BY col1 HAVING some stuff") 

但是我怎么用这样的语法来做呢

df = df.select(df.col("*")).groupBy(df.col("col1")).having("some stuff") ? 这个.having()似乎不存在。

是的,它不存在。 你用agg表示相同的逻辑,然后是:

 df.groupBy(someExpr).agg(somAgg).where(somePredicate)