Apache Spark需要5到6分钟才能从Cassandra中简单计算1亿行

我正在使用Spark Cassandra连接器。从Cassandra表获取数据需要5-6分钟。在Spark中，我在日志中看到了许多任务和Executor。原因可能是Spark在许多任务中划分了这个过程！

下面是我的代码示例：

public static void main(String[] args) { SparkConf conf = new SparkConf(true).setMaster("local[4]") .setAppName("App_Name") .set("spark.cassandra.connection.host", "127.0.0.1"); JavaSparkContext sc = new JavaSparkContext(conf); JavaRDD empRDD = javaFunctions(sc).cassandraTable("dev", "demo"); System.out.println("Row Count"+empRDD.count()); }

在谷歌搜索后，我喜欢最新的spark-cassandra-connector中的问题。参数spark.cassandra.input.split.size_in_mb默认值为64 MB，在代码中被解释为64字节。所以尝试使用spark.cassandra.input.split.size_in_mb = 64 * 1024 * 1024 = 67108864

听到就是一个例子：

 public static void main(String[] args) { SparkConf conf = new SparkConf(true).setMaster("local[4]") .setAppName("App_Name") .set("spark.cassandra.connection.host", "127.0.0.1") .set("spark.cassandra.input.split.size_in_mb","67108864"); JavaSparkContext sc = new JavaSparkContext(conf); JavaRDD empRDD = javaFunctions(sc).cassandraTable("dev", "demo"); System.out.println("Row Count"+empRDD.count()); }

为了加快速度，您可以在创建SparkConf时尝试设置spark.cassandra.input.split.size_in_mb。

可能是执行程序试图立即将所有行读入内存。如果它们都不合适，可能会导致它将RDD分页到磁盘，从而导致时间过长。通过指定拆分大小，它将计算块中的行，然后丢弃它们而不是分页到磁盘。

您可以在此处查看如何设置拆分大小的示例。

Apache Spark需要5到6分钟才能从Cassandra中简单计算1亿行

Spark Strutured Streaming自动将时间戳转换为本地时间

Avro Schema引发StructType

如何在Java中的Apache Spark中将DataFrame转换为Dataset？

Apache Spark中的数据集

解决Apache Spark中的依赖性问题

在火花环境中的Uima Ruta Out of Memory问题

无法使用Java连接到HBase

加入一个dataframespark java

Spark与Cassandra输入/输出

Dag-scheduler-event-loop java.lang.OutOfMemoryError：无法创建新的本机线程