Tag: rdd

sparkContext JavaSparkContext SQLContext SparkSession之间的区别？: sparkContext, javaSparkContext, SQLContext和SparkSession什么SparkSession 。有没有使用Sparksession转换或创建Context的方法？我可以使用一个条目SparkSession完全替换所有Context吗？是否在SQLContext中添加了SparkSession ， SparkContext ， JavaSparkContext等中的所有函数？像parallelize这样的函数在SparkContext和JavaSparkContext有不同的用法。如何在SparkSession使用这样的function？如何使用SparkSession创建以下SparkSession ？ RDD JavaRDD JavaPairRDD 数据集有没有方法将JavaPairRDD转换为Dataset或Dataset到JavaPairRDD ？

序列化RDD: 我有一个RDD，我试图序列化，然后通过反序列化重建。我试图看看Apache Spark中是否可行。 static JavaSparkContext sc = new JavaSparkContext(conf); static SerializerInstance si = SparkEnv.get().closureSerializer().newInstance(); static ClassTag<JavaRDD> tag = scala.reflect.ClassTag$.MODULE$.apply(JavaRDD.class); .. .. JavaRDD rdd = sc.textFile(logFile, 4); System.out.println(“Element 1 ” + rdd.first()); ByteBuffer bb= si.serialize(rdd, tag); JavaRDD rdd2 = si.deserialize(bb, Thread.currentThread().getContextClassLoader(),tag); System.out.println(rdd2.partitions().size()); System.out.println(“Element 0 ” + rdd2.first()); 当我对新创建的RDD执行操作时，我在最后一行得到exception。我序列化的方式类似于Spark内部的方式。 Exception in thread “main” org.apache.spark.SparkException: RDD transformations […]

是否可以在Apache Spark中创建嵌套的RDD？: 我试图在Spark中实现K-最近邻算法。我想知道是否可以使用嵌套的RDD。这将使我的生活更轻松。请考虑以下代码段。 public static void main (String[] args){ //blah blah code JavaRDD temp1 = testData.map( new Function(){ public Double call(final Vector z) throws Exception{ JavaRDD temp2 = trainData.map( new Function() { public Double call(Vector vector) throws Exception { return (double) vector.length(); } } ); return (double)z.length(); } } ); } 目前我收到这个嵌套设置的错误（我可以在这里发布完整的日志）。它是否允许在拳头位置？谢谢

使用Java将spark RDD保存到本地文件系统: 我有一个使用Spark生成的RDD。现在，如果我将此RDD写入csv文件，我将获得一些方法，如“saveAsTextFile（）”，它将csv文件输出到HDFS。我想将文件写入我的本地文件系统，以便我的SSIS进程可以从系统中选择文件并将它们加载到数据库中。我目前无法使用sqoop。除了编写shell脚本之外，它是否可以在Java中实现。需要任何清晰度，请告知。

如何在Spark RDD（Java）中通过索引获取元素: 我知道方法rdd.first（），它给了我RDD中的第一个元素。还有方法rdd.take（num）这给了我第一个“num”元素。但是没有可能通过索引获得元素吗？谢谢。

Apache Spark中的矩阵乘法: 我正在尝试使用Apache Spark和Java执行矩阵乘法。我有两个主要问题：如何创建可以代表Apache Spark中的矩阵的RDD？如何将两个这样的RDD相乘？

如何更新火花流中的广播变量？: 我相信，我有一个相对常见的火花流用例：我有一个对象流，我想根据一些参考数据进行过滤最初，我认为使用广播变量实现这是一件非常简单的事情： public void startSparkEngine { Broadcast refdataBroadcast = sparkContext.broadcast(getRefData()); final JavaDStream filteredStream = objectStream.filter(obj -> { final ReferenceData refData = refdataBroadcast.getValue(); return obj.getField().equals(refData.getField()); } filteredStream.foreachRDD(rdd -> { rdd.foreach(obj -> { // Final processing of filtered objects }); return null; }); } 但是，尽管很少，我的参考数据会定期更改我的印象是我可以在驱动程序上修改和重新广播我的变量，它会传播给每个worker，但Broadcast对象不是Serializable ，需要是final 。我有什么替代品？我能想到的三个解决方案是：将引用数据查找移动到forEachPartition或forEachRdd ，以使其完全驻留在worker上。但是，参考数据存在于REST API中，因此我还需要以某种方式存储计时器/计数器以停止对流中的每个元素访问远程数据库。每次refdata更改时，使用新的广播变量重新启动Spark上下文。 […]