java + spark：org.apache.spark.SparkException：作业已中止：任务不可序列化：java.io.NotSerializableException

我是新手，并试图运行示例JavaSparkPi.java，它运行良好，但因为我必须在另一个java中使用它我将所有东西从main复制到类中的方法并尝试调用主要方法，它说

org.apache.spark.SparkException：作业已中止：任务不可序列化：java.io.NotSerializableException

代码看起来像这样：

public class JavaSparkPi { public void cal(){ JavaSparkContext jsc = new JavaSparkContext("local", "JavaLogQuery"); int slices = 2; int n = 100000 * slices; List l = new ArrayList(n); for (int i = 0; i < n; i++) { l.add(i); } JavaRDD dataSet = jsc.parallelize(l, slices); System.out.println("count is: "+ dataSet.count()); dataSet.foreach(new VoidFunction(){ public void call(Integer i){ System.out.println(i); } }); int count = dataSet.map(new Function() { @Override public Integer call(Integer integer) throws Exception { double x = Math.random() * 2 - 1; double y = Math.random() * 2 - 1; return (x * x + y * y < 1) ? 1 : 0; } }).reduce(new Function2() { @Override public Integer call(Integer integer, Integer integer2) throws Exception { return integer + integer2; } }); System.out.println("Pi is roughly " + 4.0 * count / n); } public static void main(String[] args) throws Exception { JavaSparkPi myClass = new JavaSparkPi(); myClass.cal(); } }

有人对此有所了解吗？谢谢！

嵌套函数包含对包含对象（ JavaSparkPi ）的引用。所以这个对象将被序列化。为此，它需要可序列化。简单易行：

 public class JavaSparkPi implements Serializable { ...

主要问题是当你在java中创建一个匿名类时，它会传递一个封闭类的引用。这可以通过多种方式解决

声明封闭类Serializable

这适用于您的情况，但如果您的封闭类有一些不可序列化的字段，它将会失效。我还会说序列化父类是完全浪费。

在静态函数中创建Closure

通过调用一些静态函数来创建闭包不会将引用传递给闭包，因此不需要以这种方式进行序列化。

java + spark：org.apache.spark.SparkException：作业已中止：任务不可序列化：java.io.NotSerializableException

声明封闭类Serializable

在静态函数中创建Closure

带有DataFrame API的Apache Spark MLlib在createDataFrame（）或read（）时会产生java.net.URISyntaxException .csv（…）

加入一个dataframespark java

由于java.io.NotSerializableException：org.apache.spark.SparkContext，Spark作业失败

为什么启动StreamingContext失败并出现“IllegalArgumentException：要求失败：没有注册输出操作，所以无需执行”？

如何从sparkdataframe列中的数组中提取值

Spark的Column.isin函数不带List

使用Java将spark RDD保存到本地文件系统

Spark流式传输DStream RDD以获取文件名

是否可以在Apache Spark中创建嵌套的RDD？

从Apache Spark SQL中的用户定义聚合函数（UDAF）返回多个数组