如何在Java Spark RDD上执行标准偏差和平均操作？

我有一个看起来像这样的JavaRDD。

[ [A,8] [B,3] [C,5] [A,2] [B,8] ... ... ]

我希望我的结果是卑鄙的

 [ [A,5] [B,5.5] [C,5] ]

如何仅使用Java RDD执行此操作。 PS：我想避免groupBy操作，所以我没有使用DataFrames。

干得好：

 import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.util.StatCounter; import scala.Tuple2; import scala.Tuple3; import java.util.Arrays; import java.util.List; public class AggregateByKeyStatCounter { public static void main(String[] args) { SparkConf conf = new SparkConf().setAppName("AggregateByKeyStatCounter").setMaster("local"); JavaSparkContext sc = new JavaSparkContext(conf); List> myList = Arrays.asList(new Tuple2<>("A", 8), new Tuple2<>("B", 3), new Tuple2<>("C", 5), new Tuple2<>("A", 2), new Tuple2<>("B", 8)); JavaRDD> data = sc.parallelize(myList); JavaPairRDD pairs = JavaPairRDD.fromJavaRDD(data); /* I'm actually using aggregateByKey to perform StatCounter aggregation, so actually you can even have more statistics available */ JavaRDD> output = pairs .aggregateByKey( new StatCounter(), StatCounter::merge, StatCounter::merge) .map(x -> new Tuple3(x._1(), x._2().stdev(), x._2().mean())); output.collect().forEach(System.out::println); } }

您可以使用reduceByKey并计算每个键的总和和计数，然后按如下方式为每个键划分它们。

 val means: RDD[(String, Double)] = rdd .map(x => (x._1, (x._2, 1))) // add 1 for each element for the count .reduceByKey((a,b) => (a._1+b._1, a._2+b._2)) // create a tuple (count, sum) for each key .map{ case (k, v) => (k, v._1 / v._2) } // calculate mean for each key

如何在Java Spark RDD上执行标准偏差和平均操作？

使用mapPartition和迭代器保存spark RDD

在google dataproc集群实例中的spark-submit上运行app jar文件

Spark运行时错误：spark.metrics.sink.MetricsServlet无法实例化

Scala错误：无法在Scala IDE和Eclipse中找到或加载主类

Spark Local Mode – 所有作业仅使用一个CPU核心

关于hadoop 2.2.0 maven依赖性的火花0.9.1

Java中的“Lambdifying”scala函数

是否存在查看相邻元素的RDD转换函数？

PySpark：java.lang.OutofMemoryError：Java堆空间

Spark序列化和Java序列化有什么区别？