Spark – 使用数据框语法进行HAVING分组?
在没有sql / hiveContext的Spark中使用groupby-having的语法是什么? 我知道我能做到
DataFrame df = some_df df.registreTempTable("df"); df1 = sqlContext.sql("SELECT * FROM df GROUP BY col1 HAVING some stuff")
但是我怎么用这样的语法来做呢
df = df.select(df.col("*")).groupBy(df.col("col1")).having("some stuff")
? 这个.having()
似乎不存在。
是的,它不存在。 你用agg
表示相同的逻辑,然后是:
df.groupBy(someExpr).agg(somAgg).where(somePredicate)
- 使用Mongo-Hadoop连接器通过Apache Spark更新MongoDb中的集合
- 如何在GroupBy操作后从spark DataFrame列中收集字符串列表?
- 使用RabbitMQ源的Spark结构化流式传输
- 如何在Java中的Apache Spark中将DataFrame转换为Dataset?
- 如何找到哪个Java / Scala线程锁定了文件?
- PySpark:java.lang.OutofMemoryError:Java堆空间
- 连接到远程Spark master – Java / Scala
- 初始工作没有接受任何资源; 检查群集UI以确保工作人员已注册并具有足够的资源
- 如何使用Hive支持创建SparkSession(未找到“Hive类”)?