Spark – 使用数据框语法进行HAVING分组？

在没有sql / hiveContext的Spark中使用groupby-having的语法是什么？我知道我能做到

DataFrame df = some_df df.registreTempTable("df"); df1 = sqlContext.sql("SELECT * FROM df GROUP BY col1 HAVING some stuff")

但是我怎么用这样的语法来做呢

df = df.select(df.col("*")).groupBy(df.col("col1")).having("some stuff") ？这个.having()似乎不存在。

是的，它不存在。你用agg表示相同的逻辑，然后是：

 df.groupBy(someExpr).agg(somAgg).where(somePredicate)

Interesting Posts

Java中Spark MLlib中的矩阵运算

与csv文件相比，将mysql表转换为spark数据集的速度非常慢

Spark Kafka流媒体问题

在PySpark中运行自定义Java类

是否存在查看相邻元素的RDD转换函数？

无法读取工件描述符：IntelliJ

Spark：从具有不同内存/核心配置的单个JVM作业同时启动

LogisticRegression的Spark MLLib TFIDF实现

缓存（）/ persist（）的apache-spark内存消耗

是否可以在Apache Spark中创建嵌套的RDD？